====== 07 Reinforcement I ====== * Kontrola výsledků turnaje Reversi. [[mailto:petr.posik@cvut.cz|Hlaste podivnosti]]. * Odpovědi na dotazy. * Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím. ===== Kvíz I - cena uzlů náhodné procházky ===== * tradiční kvíz, tentokrát na výpočet hodnot stavů při náhodné procházce /* * bodovaný, bonusových 0.5bodu * řešení odevzdat do BRUTE do úlohy **lab09quiz**, do půlnoci dne, kdy běží dané cvičení * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst * správné řešení prodiskutujeme na příštím cvičení */ /* ==== Zadání kvíz I ==== * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv101.pdf | cv101}} * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv102}} * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p103.pdf |cv103}} * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv104}} * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p105.pdf |cv105}} */ {{page>courses:b3b33kui:internal:quizzes#Cena uzlů náhodné procházky}} ===== Kvíz II - Odhad policy z trénovacích epizod===== * vysvětlení na příkladu * bez bodoveho hodnoceni /* * prezentace z cvičení {{:courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_example.pdf | Policy Estimation Example}} */ > {{page>courses:b3b33kui:internal:quizzes#Odhad policy z trénovacích epizod}} ===== Samostatná práce ===== Práce na úloze [[courses:b3b33kui:semestralni_ulohy:3_mdp:start|Markovské rozhodovací procesy]]. Dokončení implementace [[courses:b3b33kui:semestralni_ulohy:testy:start|testů]] pro ověření správnosti specifikace. ===== Různé ===== * [[https://www.youtube.com/watch?v=uH-DNeTAYMM|Mystery game video]]