====== 08 Reinforcement II ======
Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.


===== Kvíz I =====
  * tradiční kvíz, tentokrát na přímý výpočet Q hodnot z trénovacích epizod

/*  
  * bodovaný, bonusových 0.5bodu
  * řešení odevzdat do BRUTE do úlohy **lab07quiz**, do půlnoci dne, kdy běží dané cvičení
  * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
  * správné řešení prodiskutujeme na příštím cvičení
*/
/*
==== Zadání kvíz I ====
  * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210331-090052_directqevaluation_cv101.pdf | cv101}}
  * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210331-090213_directqevaluation_cv102.pdf | cv102}}
  * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:directqevaluation_p103_cz.pdf |cv103}}
  * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:directqevaluation_104.pdf | Direct Q Evaluation Cviceni 104}}
  * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:directqevaluation_p105_cz.pdf |cv105}}
*/

===== Kvíz II - Analýza vlivu discount faktoru na určování policy =====

  * vysvětlení na příkladu
  * bez bodoveho hodnoceni


==== Zadání verze1: ====
 
Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r')$.
^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^
| $(B, \rightarrow,C,-1)$ |$(B, \leftarrow,A,-1)$ | $(C,\rightarrow,D,-1)$| $(C,\leftarrow,B,-1)$|
|$(C, \rightarrow,D,-1)$ |$(A,\rightarrow,exit,10)$ |$(D, \rightarrow, exit,6)$ |$(B,\rightarrow,C,-1)$ |
|$(D, \leftarrow, exit, 6)$ | | |$(C,\leftarrow,B,-1)$ |
| | | |$(B,\leftarrow,A,-1)$ |
| | | |$(A,\leftarrow,exit,10)$ |

Určete:
  - optimální policy u neterminálních stavů pro discount factor $\gamma = 1$
  - discount factor $\gamma$, kdy dochází ke změně policy

/*++++ Řešení verze1: |*/
> {{page>courses:b3b33kui:internal:quizzes#Analýza d.f. - Řešení verze1&noheader}}

/*++++*/

==== Zadání verze2: ====
(Svět jako v "Odhad policy z trénovacích epizod, zadání 1 - základní")

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.
^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^
| $(B, \rightarrow,C,-3)$ |$(B, \leftarrow,A,-1)$ | $(C,\rightarrow,D,-3)$| $(C,\leftarrow,B,-1)$|
|$(C, \rightarrow,D,-3)$ |$(A,\rightarrow,exit,6)$ |$(D, \rightarrow, exit,6)$ |$(B,\rightarrow,C,-3)$ |
|$(D, \leftarrow, exit, 6)$ | | |$(C,\leftarrow,B,-1)$ |
| | | |$(B,\leftarrow,A,-1)$ |
| | | |$(A,\leftarrow,exit,6)$ |

Určete:
  - optimální policy u neterminálních stavů pro discount factor $\gamma = 1$
  - discount factor $\gamma$, kdy dochází ke změně policy


> {{page>courses:b3b33kui:internal:quizzes#Analýza d.f. - Řešení verze2&noheader}}


  /* prezentace {{ :courses:b3b33kui:cviceni:program_po_tydnech:discount_factor_example.pdf | Discount factor example}}

> {{page>courses:b3b33kui:internal:quizzes#Analýza vlivu discount faktoru na určování policy}}
*/

===== Samostatná práce =====

Dokončete práci na úloze [[courses:b3b33kui:semestralni_ulohy:3_mdp:start|Markovské rozhodovací procesy]]. 

Můžete postupně začít pracovat na úloze [[courses:b3b33kui:semestralni_ulohy:4_rl:start|Posilované učení]].

===== Reinforcement learning plus =====
Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci

  * [[https://www.youtube.com/watch?v=SH3bADiB7uQ|Table tennis robot player]]. Starting from imitation, then generalizing through RL.
  * [[https://research.google.com/teams/brain/robotics/|Robotics@google]]. Well, they can afford many learning episodes many iterations ;-)
  * [[https://medium.com/@dhruvp/how-to-write-a-neural-network-to-play-pong-from-scratch-956b57d4f6e0|Pong game]]. Learning to play the very old computer game with the help of AI-Gym. [[https://www.youtube.com/watch?time_continue=6&v=YOW8m2YGtRg|YT Video]]