08 Reinforcement II

08 Reinforcement II

Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.

Výsledky učení

Po tomto cvičení student

rozumí, jakým způsobem může discount faktor, příp. další parametry MDP, ovlivňovat výslednou strategii.

Program

Odpovědi na dotazy
Bonusový kvíz
Úloha: vliv discount faktoru na výslednou strategii
Představení úlohy na RL

Bonusový kvíz

tradiční kvíz, tentokrát na přímý výpočet Q hodnot z trénovacích epizod

Úloha: Vliv discount faktoru na výslednou strategii

vysvětlení na příkladu
bez bodoveho hodnoceni

Zadání: verze 1

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r')$.

Episoda 1	Episoda 2	Episoda 3	Episoda 4
$(B, \rightarrow,C,-1)$	$(B, \leftarrow,A,-1)$	$(C,\rightarrow,D,-1)$	$(C,\leftarrow,B,-1)$
$(C, \rightarrow,D,-1)$	$(A,\rightarrow,exit,10)$	$(D, \rightarrow, exit,6)$	$(B,\rightarrow,C,-1)$
$(D, \leftarrow, exit, 6)$			$(C,\leftarrow,B,-1)$
			$(B,\leftarrow,A,-1)$
			$(A,\leftarrow,exit,10)$

Určete:

optimální policy u neterminálních stavů pro discount factor $\gamma = 1$
discount factor $\gamma$, kdy dochází ke změně policy

Zadání: verze 2

Episoda 1	Episoda 2	Episoda 3	Episoda 4
$(B, \rightarrow,C,-3)$	$(B, \leftarrow,A,-1)$	$(C,\rightarrow,D,-3)$	$(C,\leftarrow,B,-1)$
$(C, \rightarrow,D,-3)$	$(A,\rightarrow,exit,6)$	$(D, \rightarrow, exit,6)$	$(B,\rightarrow,C,-3)$
$(D, \leftarrow, exit, 6)$			$(C,\leftarrow,B,-1)$
			$(B,\leftarrow,A,-1)$
			$(A,\leftarrow,exit,6)$