09 Reinforcement III

Co když naše stavy nejsou diskrétní, ale spojité? Jak učit Q-funkci v takovém případě? (Bonusové téma nad rámec předmětu.)

Výsledky učení

Po tomto cvičení student

  • chápe, jak lze učit lineární funkci z dat pomocí minimalizace součtu čtverců chyb modelu;
  • rozumí, jak lze rozšířit definici Q- a V- funkce pro spojité stavy;
  • chápe, jak využít metodu stochastického gradientního sestupu k přibližnému modelování Q-funkce při aproximativním Q-learningu.

Program

  • Odpovědi na dotazy
  • Bonusový kvíz
  • Úloha 1: Aproximace minimalizující součet čtverců chyb (LSQ)
  • Úloha 2: Učení aproximační Q-funkce
  • Diskuse k mid-term písemce (pokud budou dotazy)

Bonusový kvíz

  • tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí

Úloha 1: Aproximace metodou nejmenších čtverců

Máme dány dvojice ve tvaru $(x_i, f(x_i))$:$(0, 2.1), (1, 3.6), (2, 4.9), (3, 6.6), \dots$ Funkci $f$ budeme aproximovat funkcí ve tvaru $\hat f(x,{\bf w})= w_1x + w_0$. Nalezněte parametry $w_1, w_0$ tak, aby součet kvadrátů chyb aproximace byl minimální. Tedy minimalizujte $\sum_i (\hat f(x_i, {\bf w}) - f(x_i))^2$. Pro snadnější počítání můžete uvažovat pouze první tři dvojice.

Úloha 2: Aproximativní Q-learning

Máme neznámý kostičkový svět a pouze víme, že má 3 neterminální stavy $\{-1, 0, 1\}$ a v každém neterminálním stavu je možné provést akce $\{0, 1\}$. Dále víme, že můžeme předpokládat Q funkci ve tvaru $\hat q(s,a, {\bf w})= w_1 a s +w_0 (1-a)$, kde $w_1, w_0 \in \mathbb{R}$. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(S_t, A_t, S_{t+1}, R_{t+1})$.

Episoda 1 Episoda 2 Episoda 3
$(0, 1, 1, -2)$ $(0, 0, -1, 0)$ $(1, 1, Exit, 2)$
$(1, 1, Exit, 2)$ $(-1, 0, Exit, -1)$

Z trénovacích epizod určete parametry Q funkce $w_1, w_0$ (v případě použití stochastického gradientního sestupu uvažujte $\alpha=1$) a následně určete policy.

Domácí úkol

courses/b3b33kui/cviceni/program_po_tydnech/tyden_09b.txt · Last modified: 2026/04/20 14:14 by xposik