Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Previous revision
Last revision Both sides next revision
courses:b3b33kui:cviceni:program_po_tydnech:tyden_08 [2019/04/03 11:14]
courses:b3b33kui:cviceni:program_po_tydnech:tyden_08 [2024/04/04 12:43]
xposik [Zadání 1 - základní:]
Line 1: Line 1:
 +====== 07 Reinforcement I ======
 +  * Kontrola výsledků turnaje Reversi. [[mailto:​petr.posik@cvut.cz|Hlaste podivnosti]].
 +  * Odpovědi na dotazy.
 +  * Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím.
  
 +===== Kvíz I - cena uzlů náhodné procházky =====
 +  * tradiční kvíz, tentokrát na výpočet hodnot stavů při náhodné procházce
 +
 +/*
 +  * bodovaný, bonusových 0.5bodu
 +  * řešení odevzdat do BRUTE do úlohy **lab09quiz**,​ do půlnoci dne, kdy běží dané cvičení
 +  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
 +  * správné řešení prodiskutujeme na příštím cvičení
 +*/
 +
 +/*
 +==== Zadání kvíz I ====
 +  * p. 101, St 12:45: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210413-160732_cv101.pdf | cv101}}
 +  * p. 102, St 14:30: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210413-160732_cv102.pdf | cv102}}
 +  * p. 103, Čt 12:45: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​random_walk_p103.pdf |cv103}}
 +  * p. 104, Čt 14:30: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​20210413-160732_cv102.pdf | cv104}}
 +  * p. 105, Pá 9:15: {{ :​courses:​b3b33kui:​cviceni:​program_po_tydnech:​random_walk_p105.pdf |cv105}}
 +*/
 +
 +> {{page>​courses:​b3b33kui:​internal:​quizzes#​Cena uzlů náhodné procházky}}
 +
 +===== Kvíz II - Odhad policy z trénovacích epizod=====
 +  * vysvětlení na příkladu
 +  * bez bodoveho hodnoceni
 +
 +==== Zadání 1 - základní: ==== 
 +Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.
 +^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^
 +| (B, ->, C, -3)   | (B, <-, A, -1)   | (C, ->, D, -3)  | (C, <-, B, -1)   |
 +| (C, ->, D, -3)   | (A, ->, exit, 6) | (D, ->, exit,6) | (B, ->, C, -3)   |
 +| (D, <-, exit, 6) |                  |                 | (C, <-, B, -1)   |
 +|                  |                  |                 | (B, <-, A, -1)   |
 +|                  |                  |                 | (A, <-, exit, 6) |
 +
 +
 +Úkoly:
 +  * Jeví se svět deterministicky,​ nebo stochasticky?​
 +  * Jak byste odhadli přechodový model?
 +  * Jak byste odhadli reward funkci?
 +  * Pro neterminální stavy určete optimální policy.
 +
 +> {{page>​courses:​b3b33kui:​internal:​quizzes#​Odhad policy - řešení 1}}
 +
 +
 +==== Zadání 2 - rozšířené:​ ====
 +Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce (Oproti základní variantě jsou přidány Episody 5-8). Každý řádek v tabulce je n-tice $(s, a, s', r)$.
 +^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^ Episoda 5 ^ Episoda 6 ^ Episoda 7 ^ Episoda 8 ^
 +| (B, ->, C,-3) | (B, <-, A, -1) | (C, ->, D, -3) |  (C, <-, B, -1) |  (B, <-, C, -3)  |  (B, ->, A, -1)  |  (C, ->, B, -1) |  (C, ->, D, -3) |
 +| (C, -> ,D, -3) | (A, ->, exit, 6) | (D, ->, exit, 6)  | (B, ->, C, -3)  |  (C, <-, B, -1)  |  (A, ->, exit, 6)  |  (B, ->, C, -3) |  (D, ->, exit, 6) |
 +| (D, <-, exit, 6) | | | (C,  <​-,​B,​-1) ​ |  (B,  <​-,​A,​-1) ​ |  |  (C,  <-,D,-3) | |
 +| | | | (B, <-, A, -1)  |  (A, <-, exit, 6)  |  |  (D, <-, exit, 6) | |
 +| | | | (A, <-, exit, 6)  |  |  | | |
 +
 +
 +/*| $(B, \rightarrow,​C,​-3)$ |$(B, \leftarrow,​A,​-1)$ | $(C,​\rightarrow,​D,​-3)$| $(C,​\leftarrow,​B,​-1)$| $(B,​\leftarrow,​ C, -3)$ | $(B,​\rightarrow,​A,​-1)$ | $(C,​\rightarrow,​B,​-1)$| $(C,​\rightarrow,​D,​-3)$|
 +|$(C, \rightarrow,​D,​-3)$ |$(A,​\rightarrow,​exit,​6)$ |$(D, \rightarrow,​ exit,6)$ |$(B,​\rightarrow,​C,​-3)$ | $(C,​\leftarrow,​B,​-1)$ | $(A,​\rightarrow,​exit,​6)$ | $(B,​\rightarrow,​C,​-3)$| $(D,​\rightarrow,​exit,​6)$|
 +|$(D, \leftarrow, exit, 6)$ | | |$(C,​\leftarrow,​B,​-1)$ | $(B,​\leftarrow,​A,​-1)$ |  | $(C,​\leftarrow,​D,​-3)$| |
 +| | | |$(B,​\leftarrow,​A,​-1)$ | $(A,​\leftarrow,​exit,​6)$ |  | $(D,​\leftarrow,​exit,​6)$| |
 +| | | |$(A,​\leftarrow,​exit,​6)$ |  |  | | |*/
 +
 +Úkoly:
 +  * Jeví se svět deterministicky,​ nebo stochasticky?​
 +  * Jak byste odhadli přechodový model?
 +  * Jak byste odhadli reward funkci?
 +  * Pro neterminální stavy určete optimální policy.
 +
 +> {{page>​courses:​b3b33kui:​internal:​quizzes#​Odhad policy - řešení 2}}
 +
 +
 +/*
 +  * prezentace z cvičení {{:​courses:​b3b33kui:​cviceni:​program_po_tydnech:​policy_estimation_example.pdf | Policy Estimation Example}}
 +*/
 +
 +
 +===== Samostatná práce =====
 +Práce na úloze [[courses:​b3b33kui:​semestralni_ulohy:​3_mdp:​start|Markovské rozhodovací procesy]]. ​
 +
 +Zkuste rozmyslet (příp. i implementovat) testy [[courses:​b3b33kui:​semestralni_ulohy:​testy:​start|testů]] pro ověření správnosti specifikace. ​
 +===== Různé =====
 +  * [[https://​www.youtube.com/​watch?​v=uH-DNeTAYMM|Mystery game video]]
courses/b3b33kui/cviceni/program_po_tydnech/tyden_08.txt · Last modified: 2024/04/04 14:55 by xposik