Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Previous revision
Last revision Both sides next revision
courses:b3b33kui:cviceni:program_po_tydnech:tyden_07 [2018/04/03 17:02]
courses:b3b33kui:cviceni:program_po_tydnech:tyden_07 [2024/04/04 12:39]
kostkja2 [Zadání]
Line 1: Line 1:
 +====== 06 Sequential II ======
 +Pokračujeme v sekvenčním rozhodování. Jak počítat vhodnou policy přímo?
  
 +
 +
 +<note important>​Prosíme vás o vyplnění malého [[https://​forms.gle/​FqXzc58qvqeFvdda8|dotazníku]].</​note>​
 +
 +====== Kvíz - Policy iteration/​evaluation ======
 +/*
 +  * bodovaný, bonusových 0.5bodu
 +  * řešení odevzdat do BRUTE do úlohy **lab06quiz**,​ do půlnoci dne, kdy běží dané cvičení
 +  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
 +  * správné řešení prodiskutujeme na příštím cvičení
 +*/
 +++++ Zadání|
 +Vyřešte úlohu podle {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210324-083140_policyevaluation_cv101.pdf | konkrétního zadání}}.
 +++++
 +
 +/*
 +==== Zadání kvíz ====
 +  * p. 101, St 12:45: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210324-083140_policyevaluation_cv101.pdf | cv101}}
 +  * p. 102, St 14:30: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210324-083435_policyevaluation_102.pdf | cv102}}
 +  * p. 103, Čt 12:45: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​policy_estimation_p103_cz.pdf | cv103}}
 +  * p. 104, Čt 14:30: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​policyevaluation_104.pdf| cv104}}
 +  * p. 105, Pá 9:15: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​policy_estimation_p105_cz.pdf | cv105}}
 +*/
 +===== Hledání optimální policy =====
 +  * vysvětlení na příkladu
 +
 +==== Zadání ====
 +<WRAP group>
 +<WRAP column 20%>
 +| -40 | 30 | -50 |
 +| -40 | r(A) = -1 | -50 |  ​
 +| -40 | r(B) = -1 | -50 |
 +</​WRAP>​
 +
 +<WRAP column 10%>
 +{{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​trans_model_new.png?​80 |}}  ​
 +</​WRAP>​
 +
 +<WRAP column 40%>
 +  * akce: {$\leftarrow,​ \rightarrow,​\uparrow,​\downarrow$}
 +  * $\gamma = 0.9$
 +  * $V_{k+1}(s) \leftarrow r(s) + \gamma \rm{max}_a$$\sum_{s'​}p(s'​|s,​a)V_k(s'​)$
 +</​WRAP>​
 +</​WRAP>​
 +
 +Najděte optimální policy.
 +
 +==== Value Iteration ====
 +  * iterovat: aktualizovat hodnoty $V(s)$ dokud se mění o více než zadané $\epsilon$
 +  * určit nejlepší strategii $\pi(s) = \rm{argmax}_a V(s)$
 +
 +/*|$t=0:$ | $V(A) = 0, V(B) = 0$|
 +|$t=1:$ | <​latex>​V(A) = -1 + 0.9\cdot\max \left\{%
 + ​\begin{array}{cl}
 +            (\rightarrow)&​ 0.6 \cdot (-50) + 0.2\cdot 30 + 0.2\cdot 0 = -24\\
 +            (\leftarrow) &​0.6\cdot(-40) + 0.2\cdot 30 + 0.2\cdot 0 = -18\\
 +            (\uparrow) &​0.6\cdot 30 + 0.2\cdot(-40)+0.2\cdot(-50) = 0\\
 +            (\downarrow)&​ 0.6\cdot 0 + 0.2\cdot (-50)+0.2\cdot(-40) = -18\\
 +          \end{array}
 +          \right\} = -1 \;​\;​\;​(\uparrow) \\
 +          & V(B) = -1 + 0.9\cdot\max \left\{%
 +          \begin{array}{cl}
 +            (\rightarrow)&​ 0.6 \cdot (-50) + 0.2\cdot0 + 0.2\cdot0 = -30\\
 +            (\leftarrow) &​0.6\cdot(-40) + 0.2\cdot0 + 0.2\cdot0 = -24\\
 +            (\uparrow) & 0.6\cdot0 + 0.2\cdot(-40)+0.2\cdot(-50) = -18\\
 +            (\downarrow)&​ 0.6\cdot0 + 0.2\cdot(-50)+0.2\cdot(-40) = -18\\
 +          \end{array}
 +          \right\} = -17.2 \;​\;​\;​(\uparrow) / (\downarrow) \\
 +          %t=2: & V_A = -1 + \max \left\{%
 +        \end{array} ​       ​
 +<​\latex>​|
 +*/
 +==== Policy Iteration ====
 +  * iterovat: 2 kroky
 +      * policy evaluation:
 +          * ohodnocení stavů podle dané policy
 +          * $V_{k+1}^{\pi_i}(s) \leftarrow r(s) + \gamma \sum_{s'​}p(s'​|s,​\pi_i(s))V_k(s'​)$
 +          * iteračně nebo analyticky
 +      * policy refinement:
 +          * z nových hodnot stavů určit (lepší) policy
 +  * dokud dochází ke změně policy ​
 +
 +
 +/*  * prezentace {{  :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​value_policy_iteration_example.pdf ​ | Value/​Policy iteration příklad}}*/​
 +===== Samostatná úloha =====
 +Pokračování v samostatné úloze [[courses:​b3b33kui:​semestralni_ulohy:​3_mdp:​start|Markovské rozhodovací procesy]]. ​
 +
 +Implementace [[courses:​b3b33kui:​semestralni_ulohy:​testy:​start|testů]] pro ověření správnosti specifikace.
courses/b3b33kui/cviceni/program_po_tydnech/tyden_07.txt · Last modified: 2024/04/04 12:44 by kostkja2