Differences

This shows you the differences between two versions of the page.

--- courses:b3b33kui:cviceni:program_po_tydnech:tyden_08 [2019/04/03 11:14]
+++ courses:b3b33kui:cviceni:program_po_tydnech:tyden_08 [2024/04/04 12:43]
xposik [Zadání 1 - základní:]
@@ Line 1: / Line 1: @@
+====== 07 Reinforcement I ======
+  * Kontrola výsledků turnaje Reversi. [[mailto:petr.posik@cvut.cz|Hlaste podivnosti]].
+  * Odpovědi na dotazy.
+  * Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím.
+===== Kvíz I - cena uzlů náhodné procházky =====
+  * tradiční kvíz, tentokrát na výpočet hodnot stavů při náhodné procházce
+/*
+  * bodovaný, bonusových 0.5bodu
+  * řešení odevzdat do BRUTE do úlohy **lab09quiz**, do půlnoci dne, kdy běží dané cvičení
+  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
+  * správné řešení prodiskutujeme na příštím cvičení
+*/
+/*
+==== Zadání kvíz I ====
+  * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv101.pdf | cv101}}
+  * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv102}}
+  * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p103.pdf |cv103}}
+  * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv104}}
+  * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p105.pdf |cv105}}
+*/
+> {{page>courses:b3b33kui:internal:quizzes#Cena uzlů náhodné procházky}}
+===== Kvíz II - Odhad policy z trénovacích epizod=====
+  * vysvětlení na příkladu
+  * bez bodoveho hodnoceni
+==== Zadání 1 - základní: ====
+Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.
+^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^
+| (B, ->, C, -3)   | (B, <-, A, -1)   | (C, ->, D, -3)  | (C, <-, B, -1)   |
+| (C, ->, D, -3)   | (A, ->, exit, 6) | (D, ->, exit,6) | (B, ->, C, -3)   |
+| (D, <-, exit, 6) |                  |                 | (C, <-, B, -1)   |
+|                  |                  |                 | (B, <-, A, -1)   |
+|                  |                  |                 | (A, <-, exit, 6) |
+Úkoly:
+  * Jeví se svět deterministicky, nebo stochasticky?
+  * Jak byste odhadli přechodový model?
+  * Jak byste odhadli reward funkci?
+  * Pro neterminální stavy určete optimální policy.
+> {{page>courses:b3b33kui:internal:quizzes#Odhad policy - řešení 1}}
+==== Zadání 2 - rozšířené: ====
+Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce (Oproti základní variantě jsou přidány Episody 5-8). Každý řádek v tabulce je n-tice $(s, a, s', r)$.
+^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^ Episoda 5 ^ Episoda 6 ^ Episoda 7 ^ Episoda 8 ^
+| (B, ->, C,-3) | (B, <-, A, -1) | (C, ->, D, -3) |  (C, <-, B, -1) |  (B, <-, C, -3)  |  (B, ->, A, -1)  |  (C, ->, B, -1) |  (C, ->, D, -3) |
+| (C, -> ,D, -3) | (A, ->, exit, 6) | (D, ->, exit, 6)  | (B, ->, C, -3)  |  (C, <-, B, -1)  |  (A, ->, exit, 6)  |  (B, ->, C, -3) |  (D, ->, exit, 6) |
+| (D, <-, exit, 6) | | | (C,  <-,B,-1)  |  (B,  <-,A,-1)  |  |  (C,  <-,D,-3) | |
+| | | | (B, <-, A, -1)  |  (A, <-, exit, 6)  |  |  (D, <-, exit, 6) | |
+| | | | (A, <-, exit, 6)  |  |  | | |
+/*| $(B, \rightarrow,C,-3)$ |$(B, \leftarrow,A,-1)$ | $(C,\rightarrow,D,-3)$| $(C,\leftarrow,B,-1)$| $(B,\leftarrow, C, -3)$ | $(B,\rightarrow,A,-1)$ | $(C,\rightarrow,B,-1)$| $(C,\rightarrow,D,-3)$|
+|$(C, \rightarrow,D,-3)$ |$(A,\rightarrow,exit,6)$ |$(D, \rightarrow, exit,6)$ |$(B,\rightarrow,C,-3)$ | $(C,\leftarrow,B,-1)$ | $(A,\rightarrow,exit,6)$ | $(B,\rightarrow,C,-3)$| $(D,\rightarrow,exit,6)$|
+|$(D, \leftarrow, exit, 6)$ | | |$(C,\leftarrow,B,-1)$ | $(B,\leftarrow,A,-1)$ |  | $(C,\leftarrow,D,-3)$| |
+| | | |$(B,\leftarrow,A,-1)$ | $(A,\leftarrow,exit,6)$ |  | $(D,\leftarrow,exit,6)$| |
+| | | |$(A,\leftarrow,exit,6)$ |  |  | | |*/
+Úkoly:
+  * Jeví se svět deterministicky, nebo stochasticky?
+  * Jak byste odhadli přechodový model?
+  * Jak byste odhadli reward funkci?
+  * Pro neterminální stavy určete optimální policy.
+> {{page>courses:b3b33kui:internal:quizzes#Odhad policy - řešení 2}}
+/*
+  * prezentace z cvičení {{:courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_example.pdf | Policy Estimation Example}}
+*/
+===== Samostatná práce =====
+Práce na úloze [[courses:b3b33kui:semestralni_ulohy:3_mdp:start|Markovské rozhodovací procesy]].
+Zkuste rozmyslet (příp. i implementovat) testy [[courses:b3b33kui:semestralni_ulohy:testy:start|testů]] pro ověření správnosti specifikace.
+===== Různé =====
+  * [[https://www.youtube.com/watch?v=uH-DNeTAYMM|Mystery game video]]