Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Previous revision
courses:b3b33kui:cviceni:program_po_tydnech:tyden_07 [2018/04/03 17:02]
courses:b3b33kui:cviceni:program_po_tydnech:tyden_07 [2024/04/04 12:44] (current)
kostkja2 [Zadání]
Line 1: Line 1:
 +====== 06 Sequential II ======
 +Pokračujeme v sekvenčním rozhodování. Jak počítat vhodnou policy přímo?
  
 +
 +
 +<note important>​Prosíme vás o vyplnění malého [[https://​forms.gle/​FqXzc58qvqeFvdda8|dotazníku]].</​note>​
 +
 +====== Kvíz - Policy iteration/​evaluation ======
 +/*
 +  * bodovaný, bonusových 0.5bodu
 +  * řešení odevzdat do BRUTE do úlohy **lab06quiz**,​ do půlnoci dne, kdy běží dané cvičení
 +  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
 +  * správné řešení prodiskutujeme na příštím cvičení
 +*/
 +++++ Zadání|
 +Vyřešte úlohu podle {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210324-083140_policyevaluation_cv101.pdf | konkrétního zadání}}.
 +++++
 +
 +/*
 +==== Zadání kvíz ====
 +  * p. 101, St 12:45: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210324-083140_policyevaluation_cv101.pdf | cv101}}
 +  * p. 102, St 14:30: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210324-083435_policyevaluation_102.pdf | cv102}}
 +  * p. 103, Čt 12:45: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​policy_estimation_p103_cz.pdf | cv103}}
 +  * p. 104, Čt 14:30: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​policyevaluation_104.pdf| cv104}}
 +  * p. 105, Pá 9:15: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​policy_estimation_p105_cz.pdf | cv105}}
 +*/
 +===== Hledání optimální policy =====
 +  * vysvětlení na příkladu
 +
 +==== Zadání ====
 +<WRAP group>
 +<WRAP column 20%>
 +| -40 | 30 | -50 |
 +| -40 | r(A) = -1 | -50 |  ​
 +| -40 | r(B) = -1 | -50 |
 +</​WRAP>​
 +
 +<WRAP column 10%>
 +{{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​trans_model_new.png?​80 |}}  ​
 +</​WRAP>​
 +
 +<WRAP column 40%>
 +  * akce: {$\leftarrow,​ \rightarrow,​\uparrow,​\downarrow$}
 +  * $\gamma = 0.9$
 +  * $V_{k+1}(s) \leftarrow r(s) + \gamma \rm{max}_a\it{\sum_{s'​}p(s'​|s,​a)V_k(s'​)}$
 +</​WRAP>​
 +</​WRAP>​
 +
 +Najděte optimální policy.
 +
 +==== Value Iteration ====
 +  * iterovat: aktualizovat hodnoty $V(s)$ dokud se mění o více než zadané $\epsilon$
 +  * určit nejlepší strategii $\pi(s) = \rm{argmax}_a V(s)$
 +
 +/*|$t=0:$ | $V(A) = 0, V(B) = 0$|
 +|$t=1:$ | <​latex>​V(A) = -1 + 0.9\cdot\max \left\{%
 + ​\begin{array}{cl}
 +            (\rightarrow)&​ 0.6 \cdot (-50) + 0.2\cdot 30 + 0.2\cdot 0 = -24\\
 +            (\leftarrow) &​0.6\cdot(-40) + 0.2\cdot 30 + 0.2\cdot 0 = -18\\
 +            (\uparrow) &​0.6\cdot 30 + 0.2\cdot(-40)+0.2\cdot(-50) = 0\\
 +            (\downarrow)&​ 0.6\cdot 0 + 0.2\cdot (-50)+0.2\cdot(-40) = -18\\
 +          \end{array}
 +          \right\} = -1 \;​\;​\;​(\uparrow) \\
 +          & V(B) = -1 + 0.9\cdot\max \left\{%
 +          \begin{array}{cl}
 +            (\rightarrow)&​ 0.6 \cdot (-50) + 0.2\cdot0 + 0.2\cdot0 = -30\\
 +            (\leftarrow) &​0.6\cdot(-40) + 0.2\cdot0 + 0.2\cdot0 = -24\\
 +            (\uparrow) & 0.6\cdot0 + 0.2\cdot(-40)+0.2\cdot(-50) = -18\\
 +            (\downarrow)&​ 0.6\cdot0 + 0.2\cdot(-50)+0.2\cdot(-40) = -18\\
 +          \end{array}
 +          \right\} = -17.2 \;​\;​\;​(\uparrow) / (\downarrow) \\
 +          %t=2: & V_A = -1 + \max \left\{%
 +        \end{array} ​       ​
 +<​\latex>​|
 +*/
 +==== Policy Iteration ====
 +  * iterovat: 2 kroky
 +      * policy evaluation:
 +          * ohodnocení stavů podle dané policy
 +          * $V_{k+1}^{\pi_i}(s) \leftarrow r(s) + \gamma \sum_{s'​}p(s'​|s,​\pi_i(s))V_k(s'​)$
 +          * iteračně nebo analyticky
 +      * policy refinement:
 +          * z nových hodnot stavů určit (lepší) policy
 +  * dokud dochází ke změně policy ​
 +
 +
 +/*  * prezentace {{  :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​value_policy_iteration_example.pdf ​ | Value/​Policy iteration příklad}}*/​
 +===== Samostatná úloha =====
 +Pokračování v samostatné úloze [[courses:​b3b33kui:​semestralni_ulohy:​3_mdp:​start|Markovské rozhodovací procesy]]. ​
 +
 +Implementace [[courses:​b3b33kui:​semestralni_ulohy:​testy:​start|testů]] pro ověření správnosti specifikace.