====== 07 Reinforcement I ======
Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím.

===== Kvíz I =====
Tradiční kvíz, tentokrát na přímý výpočet Q hodnot z trénovacích epizod. [0.5 bodu]


===== Kvíz II =====
> {{page>courses:b3b33kui:internal:quizzes#Odhad policy z trénovacích epizod}}

[bez bodoveho hodnoceni]
===== Samostatná práce =====
Práce na úloze [[courses:b3b33kui:cviceni:sekvencni_rozhodovani:mdps|Markovské rozhodovací procesy]]. 

Můžete postupně začít pracovat na úloze [[courses:b3b33kui:cviceni:sekvencni_rozhodovani:rl|Posilované učení]].

===== Různé =====
  * [[https://www.youtube.com/watch?v=uH-DNeTAYMM|Mystery game video]], které bylo na začátku přednášky.