06 Sequential II

Pokračujeme v sekvenčním rozhodování. Jak počítat vhodnou policy přímo?

Prosíme vás o vyplnění malého dotazníku.

Kvíz - Policy iteration/evaluation

Zadání

Hledání optimální policy

  • vysvětlení na příkladu

Zadání

-40 30 -50
-40 r(A) = -1 -50
-40 r(B) = -1 -50

  • akce: {$\leftarrow, \rightarrow,\uparrow,\downarrow$}
  • $\gamma = 0.9$
  • $V_{k+1}(s) \leftarrow r(s) + \gamma \rm{max}_a\it{\sum_{s'}p(s'|s,a)V_k(s')}$

Najděte optimální policy.

Value Iteration

  • iterovat: aktualizovat hodnoty $V(s)$ dokud se mění o více než zadané $\epsilon$
  • určit nejlepší strategii $\pi(s) = \rm{argmax}_a V(s)$

Policy Iteration

  • iterovat: 2 kroky
    • policy evaluation:
      • ohodnocení stavů podle dané policy
      • $V_{k+1}^{\pi_i}(s) \leftarrow r(s) + \gamma \sum_{s'}p(s'|s,\pi_i(s))V_k(s')$
      • iteračně nebo analyticky
    • policy refinement:
      • z nových hodnot stavů určit (lepší) policy
  • dokud dochází ke změně policy

Samostatná úloha

Pokračování v samostatné úloze Markovské rozhodovací procesy.

Implementace testů pro ověření správnosti specifikace.

courses/b3b33kui/cviceni/program_po_tydnech/tyden_07.txt · Last modified: 2024/04/04 12:44 by kostkja2