====== 07 Reinforcement I ======
Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím.

===== Kvíz I =====
  * tradiční kvíz, tentokrát na přímý výpočet Q hodnot z trénovacích epizod
  * bodovaný, bonusových 0.5bodu
  * řešení odevzdat do BRUTE do úlohy **lab07quiz**, do půlnoci dne, kdy běží dané cvičení
  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
  * správné řešení prodiskutujeme na příštím cvičení

==== Zadání kvíz I ====
  * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210331-090052_directqevaluation_cv101.pdf | cv101}}
  * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210331-090213_directqevaluation_cv102.pdf | cv102}}
  * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:directqevaluation_p103_cz.pdf |cv103}}
  * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:directqevaluation_104.pdf | Direct Q Evaluation Cviceni 104}}
  * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:directqevaluation_p105_cz.pdf |cv105}}


===== Kvíz II - Odhad policy z trénovacích epizod=====
  * vysvětlení na příkladu, on-line výuka 
  * bez bodoveho hodnoceni
  * prezentace z cvičení {{:courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_example.pdf | Policy Estimation Example}}

> {{page>courses:b3b33kui:internal:quizzes#Odhad policy z trénovacích epizod}}


===== Samostatná práce =====
Práce na úloze [[courses:b3b33kui:cviceni:sekvencni_rozhodovani:mdps|Markovské rozhodovací procesy]]. 


===== Různé =====
  * [[https://www.youtube.com/watch?v=uH-DNeTAYMM|Mystery game video]]