====== 07 Reinforcement I ======
  * Kontrola výsledků turnaje Reversi. [[mailto:petr.posik@cvut.cz|Hlaste podivnosti]].
  * Odpovědi na dotazy.
  * Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím.

===== Kvíz I - cena uzlů náhodné procházky =====
  * tradiční kvíz, tentokrát na výpočet hodnot stavů při náhodné procházce

/*
  * bodovaný, bonusových 0.5bodu
  * řešení odevzdat do BRUTE do úlohy **lab09quiz**, do půlnoci dne, kdy běží dané cvičení
  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
  * správné řešení prodiskutujeme na příštím cvičení
*/

/*
==== Zadání kvíz I ====
  * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv101.pdf | cv101}}
  * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv102}}
  * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p103.pdf |cv103}}
  * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv104}}
  * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p105.pdf |cv105}}
*/

> {{page>courses:b3b33kui:internal:quizzes#Cena uzlů náhodné procházky}}

===== Kvíz II - Odhad policy z trénovacích epizod=====
  * vysvětlení na příkladu
  * bez bodoveho hodnoceni

==== Zadání 1 - základní: ==== 
Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.
^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^
| (B, ->, C, -3)   | (B, <-, A, -1)   | (C, ->, D, -3)  | (C, <-, B, -1)   |
| (C, ->, D, -3)   | (A, ->, exit, 6) | (D, ->, exit,6) | (B, ->, C, -3)   |
| (D, <-, exit, 6) |                  |                 | (C, <-, B, -1)   |
|                  |                  |                 | (B, <-, A, -1)   |
|                  |                  |                 | (A, <-, exit, 6) |


Úkoly:
  * Jeví se svět deterministicky, nebo stochasticky?
  * Jak byste odhadli přechodový model?
  * Jak byste odhadli reward funkci?
  * Pro neterminální stavy určete optimální policy.

> {{page>courses:b3b33kui:internal:quizzes#Odhad policy - řešení 1}}


==== Zadání 2 - rozšířené: ====
Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce (Oproti základní variantě jsou přidány Episody 5-8). Každý řádek v tabulce je n-tice $(s, a, s', r)$.
^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^ Episoda 5 ^ Episoda 6 ^ Episoda 7 ^ Episoda 8 ^
| (B, ->, C,-3) | (B, <-, A, -1) | (C, ->, D, -3) |  (C, <-, B, -1) |  (B, <-, C, -3)  |  (B, ->, A, -1)  |  (C, ->, B, -1) |  (C, ->, D, -3) |
| (C, -> ,D, -3) | (A, ->, exit, 6) | (D, ->, exit, 6)  | (B, ->, C, -3)  |  (C, <-, B, -1)  |  (A, ->, exit, 6)  |  (B, ->, C, -3) |  (D, ->, exit, 6) |
| (D, <-, exit, 6) | | | (C,  <-,B,-1)  |  (B,  <-,A,-1)  |  |  (C,  <-,D,-3) | |
| | | | (B, <-, A, -1)  |  (A, <-, exit, 6)  |  |  (D, <-, exit, 6) | |
| | | | (A, <-, exit, 6)  |  |  | | |


/*| $(B, \rightarrow,C,-3)$ |$(B, \leftarrow,A,-1)$ | $(C,\rightarrow,D,-3)$| $(C,\leftarrow,B,-1)$| $(B,\leftarrow, C, -3)$ | $(B,\rightarrow,A,-1)$ | $(C,\rightarrow,B,-1)$| $(C,\rightarrow,D,-3)$|
|$(C, \rightarrow,D,-3)$ |$(A,\rightarrow,exit,6)$ |$(D, \rightarrow, exit,6)$ |$(B,\rightarrow,C,-3)$ | $(C,\leftarrow,B,-1)$ | $(A,\rightarrow,exit,6)$ | $(B,\rightarrow,C,-3)$| $(D,\rightarrow,exit,6)$|
|$(D, \leftarrow, exit, 6)$ | | |$(C,\leftarrow,B,-1)$ | $(B,\leftarrow,A,-1)$ |  | $(C,\leftarrow,D,-3)$| |
| | | |$(B,\leftarrow,A,-1)$ | $(A,\leftarrow,exit,6)$ |  | $(D,\leftarrow,exit,6)$| |
| | | |$(A,\leftarrow,exit,6)$ |  |  | | |*/

Úkoly:
  * Jeví se svět deterministicky, nebo stochasticky?
  * Jak byste odhadli přechodový model?
  * Jak byste odhadli reward funkci?
  * Pro neterminální stavy určete optimální policy.

> {{page>courses:b3b33kui:internal:quizzes#Odhad policy - řešení 2}}


/*
  * prezentace z cvičení {{:courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_example.pdf | Policy Estimation Example}}
*/


===== Samostatná práce =====
Práce na úloze [[courses:b3b33kui:semestralni_ulohy:3_mdp:start|Markovské rozhodovací procesy]]. 

Zkuste rozmyslet (příp. i implementovat) [[courses:b3b33kui:semestralni_ulohy:testy:start|testy]] pro ověření správnosti specifikace. 
===== Různé =====
  * [[https://www.youtube.com/watch?v=uH-DNeTAYMM|Mystery game video]]