====== 07 Reinforcement I ====== Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím. ===== Kvíz I ===== Tradiční kvíz, tentokrát na přímý výpočet Q hodnot z trénovacích epizod. [0.5 bodu] ===== Kvíz II ===== > {{page>courses:b3b33kui:internal:quizzes#Odhad policy z trénovacích epizod}} [bez bodoveho hodnoceni] ===== Samostatná práce ===== Práce na úloze [[courses:b3b33kui:cviceni:sekvencni_rozhodovani:mdps|Markovské rozhodovací procesy]]. Můžete postupně začít pracovat na úloze [[courses:b3b33kui:cviceni:sekvencni_rozhodovani:rl|Posilované učení]]. ===== Různé ===== * [[https://www.youtube.com/watch?v=uH-DNeTAYMM|Mystery game video]], které bylo na začátku přednášky.