06 Sequential II
Pokračujeme v sekvenčním rozhodování. Jak počítat vhodnou policy přímo?
Kvíz - Policy iteration/evaluation
Hledání optimální policy
Zadání
-40 | 30 | -50 |
-40 | r(A) = -1 | -50 |
-40 | r(B) = -1 | -50 |
akce: {$\leftarrow, \rightarrow,\uparrow,\downarrow$}
$\gamma = 0.9$
$V_{k+1}(s) \leftarrow r(s) + \gamma \rm{max}_a\it{\sum_{s'}p(s'|s,a)V_k(s')}$
Najděte optimální policy.
Value Iteration
iterovat: aktualizovat hodnoty $V(s)$ dokud se významně mění (více než $\epsilon \cdot (1-\gamma)/\gamma$)
určit nejlepší strategii $\pi(s) = \rm{argmax}_a [r(s) + \gamma \rm{max}_a\it{\sum_{s'}p(s'|s,a)V_k(s')}\rm{]}$
Policy Iteration
Samostatná úloha