====== 06 Sequential II ======
Pokračujeme v sekvenčním rozhodování. Jak počítat vhodnou policy přímo?

====== Kvíz - Policy iteration/evaluation ======
  * bodovaný, bonusových 0.5bodu
  * řešení odevzdat do BRUTE do úlohy **lab06quiz**, do půlnoci dne, kdy běží dané cvičení
  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
  * správné řešení prodiskutujeme na příštím cvičení

==== Zadání kvíz ====
  * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210324-083140_policyevaluation_cv101.pdf | cv101}}
  * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210324-083435_policyevaluation_102.pdf | cv102}}
  * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_p103_cz.pdf | cv103}}
  * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:policyevaluation_104.pdf| cv104}}
  * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_p105_cz.pdf | cv105}}
===== Hledání optimální policy =====
  * vysvětlení na příkladu, on-line výuka
  * prezentace {{  :courses:b3b33kui:cviceni:program_po_tydnech:value_policy_iteration_example.pdf  | Value/Policy iteration příklad}}
===== Samostatná úloha =====
Pokračování v samostatné úloze [[courses:b3b33kui:cviceni:sekvencni_rozhodovani:mdps|Markovské rozhodovací procesy]].