CourseWare Wiki
Switch Term
Summer 2023 / 2024
Summer 2022 / 2023
Summer 2021 / 2022
Summer 2020 / 2021
Summer 2019 / 2020
Summer 2018 / 2019
Summer 2017 / 2018
Older
Search
Log In
b232
courses
b3b33kui
cviceni
program_po_tydnech
tyden_07
Differences
This shows you the differences between two versions of the page.
View differences:
Side by Side
Inline
Go
Link to this comparison view
Both sides previous revision
Previous revision
2024/04/04 12:44 kostkja2 [Zadání]
2024/04/04 12:39 kostkja2 [Zadání]
2024/04/04 12:39 kostkja2 [Zadání]
2024/04/04 12:39 kostkja2 [Zadání]
2024/04/04 12:35 kostkja2 [Hledání optimální policy]
2024/04/04 12:21 kostkja2 [Hledání optimální policy]
2024/04/03 18:18 kostkja2 [Hledání optimální policy]
2024/04/03 18:17 kostkja2 [Hledání optimální policy]
2024/04/03 11:38 kostkja2 [Hledání optimální policy]
2024/04/03 11:27 kostkja2 [Hledání optimální policy]
2024/04/03 11:23 kostkja2 [Hledání optimální policy]
2024/04/03 11:19 kostkja2 [Hledání optimální policy]
2024/04/03 11:19 kostkja2 [Hledání optimální policy]
2024/04/03 11:18 kostkja2 [Hledání optimální policy]
2024/04/03 11:18 kostkja2 [Hledání optimální policy]
2024/04/03 11:18 kostkja2 [Hledání optimální policy]
2024/03/26 12:08 xposik
2023/04/28 16:52 external edit
Go
Previous revision
2024/04/04 12:44 kostkja2 [Zadání]
2024/04/04 12:39 kostkja2 [Zadání]
2024/04/04 12:39 kostkja2 [Zadání]
2024/04/04 12:39 kostkja2 [Zadání]
2024/04/04 12:35 kostkja2 [Hledání optimální policy]
2024/04/04 12:21 kostkja2 [Hledání optimální policy]
2024/04/03 18:18 kostkja2 [Hledání optimální policy]
2024/04/03 18:17 kostkja2 [Hledání optimální policy]
2024/04/03 11:38 kostkja2 [Hledání optimální policy]
2024/04/03 11:27 kostkja2 [Hledání optimální policy]
2024/04/03 11:23 kostkja2 [Hledání optimální policy]
2024/04/03 11:19 kostkja2 [Hledání optimální policy]
2024/04/03 11:19 kostkja2 [Hledání optimální policy]
2024/04/03 11:18 kostkja2 [Hledání optimální policy]
2024/04/03 11:18 kostkja2 [Hledání optimální policy]
2024/04/03 11:18 kostkja2 [Hledání optimální policy]
2024/03/26 12:08 xposik
2023/04/28 16:52 external edit
Go
courses:b3b33kui:cviceni:program_po_tydnech:tyden_07 [2018/04/03 17:02]
courses:b3b33kui:cviceni:program_po_tydnech:tyden_07 [2024/04/04 12:44]
(current)
kostkja2
[Zadání]
Line 1:
Line 1:
+
====== 06 Sequential II ======
+
Pokračujeme v sekvenčním rozhodování. Jak počítat vhodnou policy přímo?
+
+
+
<note important>Prosíme vás o vyplnění malého [[https://forms.gle/FqXzc58qvqeFvdda8|dotazníku]].</note>
+
+
====== Kvíz - Policy iteration/evaluation ======
+
/*
+
* bodovaný, bonusových 0.5bodu
+
* řešení odevzdat do BRUTE do úlohy **lab06quiz**, do půlnoci dne, kdy běží dané cvičení
+
* formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
+
* správné řešení prodiskutujeme na příštím cvičení
+
*/
+
++++ Zadání|
+
Vyřešte úlohu podle {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210324-083140_policyevaluation_cv101.pdf | konkrétního zadání}}.
+
++++
+
+
/*
+
==== Zadání kvíz ====
+
* p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210324-083140_policyevaluation_cv101.pdf | cv101}}
+
* p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210324-083435_policyevaluation_102.pdf | cv102}}
+
* p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_p103_cz.pdf | cv103}}
+
* p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:policyevaluation_104.pdf| cv104}}
+
* p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_p105_cz.pdf | cv105}}
+
*/
+
===== Hledání optimální policy =====
+
* vysvětlení na příkladu
+
+
==== Zadání ====
+
<WRAP group>
+
<WRAP column 20%>
+
| -40 | 30 | -50 |
+
| -40 | r(A) = -1 | -50 |
+
| -40 | r(B) = -1 | -50 |
+
</WRAP>
+
+
<WRAP column 10%>
+
{{ :courses:b3b33kui:cviceni:program_po_tydnech:trans_model_new.png?80 |}}
+
</WRAP>
+
+
<WRAP column 40%>
+
* akce: {$\leftarrow, \rightarrow,\uparrow,\downarrow$}
+
* $\gamma = 0.9$
+
* $V_{k+1}(s) \leftarrow r(s) + \gamma \rm{max}_a\it{\sum_{s'}p(s'|s,a)V_k(s')}$
+
</WRAP>
+
</WRAP>
+
+
Najděte optimální policy.
+
+
==== Value Iteration ====
+
* iterovat: aktualizovat hodnoty $V(s)$ dokud se mění o více než zadané $\epsilon$
+
* určit nejlepší strategii $\pi(s) = \rm{argmax}_a V(s)$
+
+
/*|$t=0:$ | $V(A) = 0, V(B) = 0$|
+
|$t=1:$ | <latex>V(A) = -1 + 0.9\cdot\max \left\{%
+
\begin{array}{cl}
+
(\rightarrow)& 0.6 \cdot (-50) + 0.2\cdot 30 + 0.2\cdot 0 = -24\\
+
(\leftarrow) &0.6\cdot(-40) + 0.2\cdot 30 + 0.2\cdot 0 = -18\\
+
(\uparrow) &0.6\cdot 30 + 0.2\cdot(-40)+0.2\cdot(-50) = 0\\
+
(\downarrow)& 0.6\cdot 0 + 0.2\cdot (-50)+0.2\cdot(-40) = -18\\
+
\end{array}
+
\right\} = -1 \;\;\;(\uparrow) \\
+
& V(B) = -1 + 0.9\cdot\max \left\{%
+
\begin{array}{cl}
+
(\rightarrow)& 0.6 \cdot (-50) + 0.2\cdot0 + 0.2\cdot0 = -30\\
+
(\leftarrow) &0.6\cdot(-40) + 0.2\cdot0 + 0.2\cdot0 = -24\\
+
(\uparrow) & 0.6\cdot0 + 0.2\cdot(-40)+0.2\cdot(-50) = -18\\
+
(\downarrow)& 0.6\cdot0 + 0.2\cdot(-50)+0.2\cdot(-40) = -18\\
+
\end{array}
+
\right\} = -17.2 \;\;\;(\uparrow) / (\downarrow) \\
+
%t=2: & V_A = -1 + \max \left\{%
+
\end{array}
+
<\latex>|
+
*/
+
==== Policy Iteration ====
+
* iterovat: 2 kroky
+
* policy evaluation:
+
* ohodnocení stavů podle dané policy
+
* $V_{k+1}^{\pi_i}(s) \leftarrow r(s) + \gamma \sum_{s'}p(s'|s,\pi_i(s))V_k(s')$
+
* iteračně nebo analyticky
+
* policy refinement:
+
* z nových hodnot stavů určit (lepší) policy
+
* dokud dochází ke změně policy
+
+
+
/* * prezentace {{ :courses:b3b33kui:cviceni:program_po_tydnech:value_policy_iteration_example.pdf | Value/Policy iteration příklad}}*/
+
===== Samostatná úloha =====
+
Pokračování v samostatné úloze [[courses:b3b33kui:semestralni_ulohy:3_mdp:start|Markovské rozhodovací procesy]].
+
+
Implementace [[courses:b3b33kui:semestralni_ulohy:testy:start|testů]] pro ověření správnosti specifikace.