Table of Contents

06 Sequential II
Kvíz - Policy iteration/evaluation
- Hledání optimální policy
- Samostatná úloha

06 Sequential II

Pokračujeme v sekvenčním rozhodování. Jak počítat vhodnou policy přímo?

Prosíme vás o vyplnění malého dotazníku.

Kvíz - Policy iteration/evaluation

Hledání optimální policy

vysvětlení na příkladu

Zadání

-40	30	-50
-40	r(A) = -1	-50
-40	r(B) = -1	-50

akce: {$\leftarrow, \rightarrow,\uparrow,\downarrow$}
$\gamma = 0.9$
$V_{k+1}(s) \leftarrow r(s) + \gamma \rm{max}_a\it{\sum_{s'}p(s'|s,a)V_k(s')}$

Najděte optimální policy.

Value Iteration

iterovat: aktualizovat hodnoty $V(s)$ dokud se významně mění (více než $\epsilon \cdot (1-\gamma)/\gamma$)
určit nejlepší strategii $\pi(s) = \rm{argmax}_a [r(s) + \gamma \rm{max}_a\it{\sum_{s'}p(s'|s,a)V_k(s')}\rm{]}$

Policy Iteration

iterovat: 2 kroky
- policy evaluation:
  - ohodnocení stavů podle dané policy
  - $V_{k+1}^{\pi_i}(s) \leftarrow r(s) + \gamma \sum_{s'}p(s'|s,\pi_i(s))V_k(s')$
  - iteračně nebo analyticky
- policy refinement:
  - z nových hodnot stavů určit (lepší) policy
dokud dochází ke změně policy

Samostatná úloha

Pokračování v samostatné úloze Markovské rozhodovací procesy.

Implementace testů pro ověření správnosti specifikace.