====== 07 Reinforcement I ====== Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím. ===== Kvíz I ===== * tradiční kvíz, tentokrát na přímý výpočet Q hodnot z trénovacích epizod * bodovaný, bonusových 0.5bodu * řešení odevzdat do BRUTE do úlohy **lab07quiz**, do půlnoci dne, kdy běží dané cvičení * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst * správné řešení prodiskutujeme na příštím cvičení ==== Zadání kvíz I ==== * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210331-090052_directqevaluation_cv101.pdf | cv101}} * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210331-090213_directqevaluation_cv102.pdf | cv102}} * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:directqevaluation_p103_cz.pdf |cv103}} * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:directqevaluation_104.pdf | Direct Q Evaluation Cviceni 104}} * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:directqevaluation_p105_cz.pdf |cv105}} ===== Kvíz II - Odhad policy z trénovacích epizod===== * vysvětlení na příkladu, on-line výuka * bez bodoveho hodnoceni * prezentace z cvičení {{:courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_example.pdf | Policy Estimation Example}} > {{page>courses:b3b33kui:internal:quizzes#Odhad policy z trénovacích epizod}} ===== Samostatná práce ===== Práce na úloze [[courses:b3b33kui:cviceni:sekvencni_rozhodovani:mdps|Markovské rozhodovací procesy]]. ===== Různé ===== * [[https://www.youtube.com/watch?v=uH-DNeTAYMM|Mystery game video]]