====== 07 Reinforcement I ====== * Kontrola výsledků turnaje Reversi. [[mailto:petr.posik@cvut.cz|Hlaste podivnosti]]. * Odpovědi na dotazy. * Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím. ===== Kvíz I - cena uzlů náhodné procházky ===== * tradiční kvíz, tentokrát na výpočet hodnot stavů při náhodné procházce /* * bodovaný, bonusových 0.5bodu * řešení odevzdat do BRUTE do úlohy **lab09quiz**, do půlnoci dne, kdy běží dané cvičení * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst * správné řešení prodiskutujeme na příštím cvičení */ /* ==== Zadání kvíz I ==== * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv101.pdf | cv101}} * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv102}} * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p103.pdf |cv103}} * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv104}} * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p105.pdf |cv105}} */ > {{page>courses:b3b33kui:internal:quizzes#Cena uzlů náhodné procházky}} ===== Kvíz II - Odhad policy z trénovacích epizod===== * vysvětlení na příkladu * bez bodoveho hodnoceni ==== Zadání 1 - základní: ==== Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$. ^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^ | (B, ->, C, -3) | (B, <-, A, -1) | (C, ->, D, -3) | (C, <-, B, -1) | | (C, ->, D, -3) | (A, ->, exit, 6) | (D, ->, exit,6) | (B, ->, C, -3) | | (D, <-, exit, 6) | | | (C, <-, B, -1) | | | | | (B, <-, A, -1) | | | | | (A, <-, exit, 6) | Úkoly: * Jeví se svět deterministicky, nebo stochasticky? * Jak byste odhadli přechodový model? * Jak byste odhadli reward funkci? * Pro neterminální stavy určete optimální policy. > {{page>courses:b3b33kui:internal:quizzes#Odhad policy - řešení 1}} ==== Zadání 2 - rozšířené: ==== Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce (Oproti základní variantě jsou přidány Episody 5-8). Každý řádek v tabulce je n-tice $(s, a, s', r)$. ^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^ Episoda 5 ^ Episoda 6 ^ Episoda 7 ^ Episoda 8 ^ | (B, ->, C,-3) | (B, <-, A, -1) | (C, ->, D, -3) | (C, <-, B, -1) | (B, <-, C, -3) | (B, ->, A, -1) | (C, ->, B, -1) | (C, ->, D, -3) | | (C, -> ,D, -3) | (A, ->, exit, 6) | (D, ->, exit, 6) | (B, ->, C, -3) | (C, <-, B, -1) | (A, ->, exit, 6) | (B, ->, C, -3) | (D, ->, exit, 6) | | (D, <-, exit, 6) | | | (C, <-,B,-1) | (B, <-,A,-1) | | (C, <-,D,-3) | | | | | | (B, <-, A, -1) | (A, <-, exit, 6) | | (D, <-, exit, 6) | | | | | | (A, <-, exit, 6) | | | | | /*| $(B, \rightarrow,C,-3)$ |$(B, \leftarrow,A,-1)$ | $(C,\rightarrow,D,-3)$| $(C,\leftarrow,B,-1)$| $(B,\leftarrow, C, -3)$ | $(B,\rightarrow,A,-1)$ | $(C,\rightarrow,B,-1)$| $(C,\rightarrow,D,-3)$| |$(C, \rightarrow,D,-3)$ |$(A,\rightarrow,exit,6)$ |$(D, \rightarrow, exit,6)$ |$(B,\rightarrow,C,-3)$ | $(C,\leftarrow,B,-1)$ | $(A,\rightarrow,exit,6)$ | $(B,\rightarrow,C,-3)$| $(D,\rightarrow,exit,6)$| |$(D, \leftarrow, exit, 6)$ | | |$(C,\leftarrow,B,-1)$ | $(B,\leftarrow,A,-1)$ | | $(C,\leftarrow,D,-3)$| | | | | |$(B,\leftarrow,A,-1)$ | $(A,\leftarrow,exit,6)$ | | $(D,\leftarrow,exit,6)$| | | | | |$(A,\leftarrow,exit,6)$ | | | | |*/ Úkoly: * Jeví se svět deterministicky, nebo stochasticky? * Jak byste odhadli přechodový model? * Jak byste odhadli reward funkci? * Pro neterminální stavy určete optimální policy. > {{page>courses:b3b33kui:internal:quizzes#Odhad policy - řešení 2}} /* * prezentace z cvičení {{:courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_example.pdf | Policy Estimation Example}} */ ===== Samostatná práce ===== Práce na úloze [[courses:b3b33kui:semestralni_ulohy:3_mdp:start|Markovské rozhodovací procesy]]. Zkuste rozmyslet (příp. i implementovat) [[courses:b3b33kui:semestralni_ulohy:testy:start|testy]] pro ověření správnosti specifikace. ===== Různé ===== * [[https://www.youtube.com/watch?v=uH-DNeTAYMM|Mystery game video]]