====== 09 Reinforcement III ======  
  * Aproximace minimalizující součet čtverců chyb (LSQ)
  * Učení aproximační Q-funkce
  * Diskuse k mid-term písemce (pokud budou dotazy)

===== Kvíz I =====
  * tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí

/*
  * bodovaný, bonusových 0.5bodu
  * řešení odevzdat do BRUTE do úlohy **lab08quiz**, do půlnoci dne, kdy běží dané cvičení
  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
  * správné řešení prodiskutujeme na příštím cvičení
*/
/*
==== Zadání kvíz I ====
  * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210407-101308_qlearning_cv101.pdf | cv101}}
  * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210407-101412_qlearning_cv102.pdf | cv102}}
  * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:qlearning_p103_cz.pdf |cv103}}
  * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:qlearning_104.pdf |cv104}}
  * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:qlearning_p105_cz.pdf |cv105}}
*/
===== Kvíz II - výpočet pomocí aproximace =====
  * vysvětlení na příkladech
  * příklad I: aproximace metodou nejmenších čtverců
  * příklad II: aproximativní Q-learning
  * bez bodového hodnocení

/*
  * prezentace {{ :courses:b3b33kui:cviceni:program_po_tydnech:learning_by_approximation.pdf | Learning_by_approximation.pdf}}
*/

==== ====

==== Aproximace metodou nejmenších čtverců ====
Máme dány dvojice ve tvaru $(x_i, f(x_i))$:$(0, 2.1), (1, 3.6), (2, 4.9), (3, 6.6), \dots$
Funkci $f$ budeme aproximovat funkcí ve tvaru $\hat f(x,{\bf w})= w_1x + w_0$. Nalezněte parametry $w_1, w_0$ tak, aby součet kvadrátů chyb aproximace byl minimální. Tedy minimalizujte $\sum_i (\hat f(x_i, {\bf w}) - f(x_i))^2$. Pro snadnější počítání můžete uvažovat pouze první tři dvojice.


> {{page>courses:b3b33kui:internal:quizzes#Nejmenší čtverce - řešení&noheader}}


==== Aproximativní Q-learning ====
Máme neznámý kostičkový svět a pouze víme, že má 3 neterminální stavy $\{-1, 0, 1\}$ a v každém neterminálním stavu je možné provést akce $\{0, 1\}$. Dále víme, že můžeme předpokládat Q funkci ve tvaru $\hat q(s,a, {\bf w})= w_1 a s +w_0 (1-a)$, kde $w_1, w_0 \in \mathbb{R}$. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(S_t, A_t, S_{t+1}, R_{t+1})$.
^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^
| $(0, 1, 1, -2)$ |$(0, 0, -1, 0)$ | $(1, 1, Exit, 2)$| 
|$(1, 1, Exit, 2)$ |$(-1, 0, Exit, -1)$ | |

Z trénovacích epizod určete parametry Q funkce $w_1, w_0$ (v případě použití stochastického gradientního sestupu uvažujte $\alpha=1$) a následně určete policy.


> {{page>courses:b3b33kui:internal:quizzes#Aproximativní Q-learning - řešení&noheader}}


===== Samostatná práce =====

Začněte pracovat na úloze [[courses:b3b33kui:semestralni_ulohy:4_rl:start|Posilované učení]].