Table of Contents

06 Sequential II

Pokračujeme v sekvenčním rozhodování. Jak počítat vhodnou policy přímo?

Prosíme vás o vyplnění malého dotazníku.

Kvíz - Policy iteration/evaluation

Zadání

Hledání optimální policy

Zadání

-40 30 -50
-40 r(A) = -1 -50
-40 r(B) = -1 -50

  • akce: {$\leftarrow, \rightarrow,\uparrow,\downarrow$}
  • $\gamma = 0.9$
  • $V_{k+1}(s) \leftarrow r(s) + \gamma \rm{max}_a\it{\sum_{s'}p(s'|s,a)V_k(s')}$

Najděte optimální policy.

Value Iteration

Policy Iteration

Samostatná úloha

Pokračování v samostatné úloze Markovské rozhodovací procesy.

Implementace testů pro ověření správnosti specifikace.