Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Previous revision
courses:b3b33kui:cviceni:program_po_tydnech:tyden_08 [2019/04/03 11:14]
courses:b3b33kui:cviceni:program_po_tydnech:tyden_08 [2024/04/04 14:55] (current)
xposik [Samostatná práce]
Line 1: Line 1:
 +====== 07 Reinforcement I ======
 +  * Kontrola výsledků turnaje Reversi. [[mailto:​petr.posik@cvut.cz|Hlaste podivnosti]].
 +  * Odpovědi na dotazy.
 +  * Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím.
  
 +===== Kvíz I - cena uzlů náhodné procházky =====
 +  * tradiční kvíz, tentokrát na výpočet hodnot stavů při náhodné procházce
 +
 +/*
 +  * bodovaný, bonusových 0.5bodu
 +  * řešení odevzdat do BRUTE do úlohy **lab09quiz**,​ do půlnoci dne, kdy běží dané cvičení
 +  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
 +  * správné řešení prodiskutujeme na příštím cvičení
 +*/
 +
 +/*
 +==== Zadání kvíz I ====
 +  * p. 101, St 12:45: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210413-160732_cv101.pdf | cv101}}
 +  * p. 102, St 14:30: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210413-160732_cv102.pdf | cv102}}
 +  * p. 103, Čt 12:45: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​random_walk_p103.pdf |cv103}}
 +  * p. 104, Čt 14:30: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210413-160732_cv102.pdf | cv104}}
 +  * p. 105, Pá 9:15: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​random_walk_p105.pdf |cv105}}
 +*/
 +
 +> {{page>​courses:​b3b33kui:​internal:​quizzes#​Cena uzlů náhodné procházky}}
 +
 +===== Kvíz II - Odhad policy z trénovacích epizod=====
 +  * vysvětlení na příkladu
 +  * bez bodoveho hodnoceni
 +
 +==== Zadání 1 - základní: ==== 
 +Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.
 +^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^
 +| (B, ->, C, -3)   | (B, <-, A, -1)   | (C, ->, D, -3)  | (C, <-, B, -1)   |
 +| (C, ->, D, -3)   | (A, ->, exit, 6) | (D, ->, exit,6) | (B, ->, C, -3)   |
 +| (D, <-, exit, 6) |                  |                 | (C, <-, B, -1)   |
 +|                  |                  |                 | (B, <-, A, -1)   |
 +|                  |                  |                 | (A, <-, exit, 6) |
 +
 +
 +Úkoly:
 +  * Jeví se svět deterministicky,​ nebo stochasticky?​
 +  * Jak byste odhadli přechodový model?
 +  * Jak byste odhadli reward funkci?
 +  * Pro neterminální stavy určete optimální policy.
 +
 +> {{page>​courses:​b3b33kui:​internal:​quizzes#​Odhad policy - řešení 1}}
 +
 +
 +==== Zadání 2 - rozšířené:​ ====
 +Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce (Oproti základní variantě jsou přidány Episody 5-8). Každý řádek v tabulce je n-tice $(s, a, s', r)$.
 +^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^ Episoda 5 ^ Episoda 6 ^ Episoda 7 ^ Episoda 8 ^
 +| (B, ->, C,-3) | (B, <-, A, -1) | (C, ->, D, -3) |  (C, <-, B, -1) |  (B, <-, C, -3)  |  (B, ->, A, -1)  |  (C, ->, B, -1) |  (C, ->, D, -3) |
 +| (C, -> ,D, -3) | (A, ->, exit, 6) | (D, ->, exit, 6)  | (B, ->, C, -3)  |  (C, <-, B, -1)  |  (A, ->, exit, 6)  |  (B, ->, C, -3) |  (D, ->, exit, 6) |
 +| (D, <-, exit, 6) | | | (C,  <​-,​B,​-1) ​ |  (B,  <​-,​A,​-1) ​ |  |  (C,  <-,D,-3) | |
 +| | | | (B, <-, A, -1)  |  (A, <-, exit, 6)  |  |  (D, <-, exit, 6) | |
 +| | | | (A, <-, exit, 6)  |  |  | | |
 +
 +
 +/*| $(B, \rightarrow,​C,​-3)$ |$(B, \leftarrow,​A,​-1)$ | $(C,​\rightarrow,​D,​-3)$| $(C,​\leftarrow,​B,​-1)$| $(B,​\leftarrow,​ C, -3)$ | $(B,​\rightarrow,​A,​-1)$ | $(C,​\rightarrow,​B,​-1)$| $(C,​\rightarrow,​D,​-3)$|
 +|$(C, \rightarrow,​D,​-3)$ |$(A,​\rightarrow,​exit,​6)$ |$(D, \rightarrow,​ exit,6)$ |$(B,​\rightarrow,​C,​-3)$ | $(C,​\leftarrow,​B,​-1)$ | $(A,​\rightarrow,​exit,​6)$ | $(B,​\rightarrow,​C,​-3)$| $(D,​\rightarrow,​exit,​6)$|
 +|$(D, \leftarrow, exit, 6)$ | | |$(C,​\leftarrow,​B,​-1)$ | $(B,​\leftarrow,​A,​-1)$ |  | $(C,​\leftarrow,​D,​-3)$| |
 +| | | |$(B,​\leftarrow,​A,​-1)$ | $(A,​\leftarrow,​exit,​6)$ |  | $(D,​\leftarrow,​exit,​6)$| |
 +| | | |$(A,​\leftarrow,​exit,​6)$ |  |  | | |*/
 +
 +Úkoly:
 +  * Jeví se svět deterministicky,​ nebo stochasticky?​
 +  * Jak byste odhadli přechodový model?
 +  * Jak byste odhadli reward funkci?
 +  * Pro neterminální stavy určete optimální policy.
 +
 +> {{page>​courses:​b3b33kui:​internal:​quizzes#​Odhad policy - řešení 2}}
 +
 +
 +/*
 +  * prezentace z cvičení {{:​courses:​b3b33kui:​cviceni:​program_po_tydnech:​policy_estimation_example.pdf | Policy Estimation Example}}
 +*/
 +
 +
 +===== Samostatná práce =====
 +Práce na úloze [[courses:​b3b33kui:​semestralni_ulohy:​3_mdp:​start|Markovské rozhodovací procesy]]. ​
 +
 +Zkuste rozmyslet (příp. i implementovat) [[courses:​b3b33kui:​semestralni_ulohy:​testy:​start|testy]] pro ověření správnosti specifikace. ​
 +===== Různé =====
 +  * [[https://​www.youtube.com/​watch?​v=uH-DNeTAYMM|Mystery game video]]