Table of Contents

08 Reinforcement II

Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.

Výsledky učení

Po tomto cvičení student

Program

Bonusový kvíz

Úloha: Vliv discount faktoru na výslednou strategii

Zadání: verze 1

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r')$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4
$(B, \rightarrow,C,-1)$ $(B, \leftarrow,A,-1)$ $(C,\rightarrow,D,-1)$ $(C,\leftarrow,B,-1)$
$(C, \rightarrow,D,-1)$ $(A,\rightarrow,exit,10)$ $(D, \rightarrow, exit,6)$ $(B,\rightarrow,C,-1)$
$(D, \leftarrow, exit, 6)$ $(C,\leftarrow,B,-1)$
$(B,\leftarrow,A,-1)$
$(A,\leftarrow,exit,10)$

Určete:

  1. optimální policy u neterminálních stavů pro discount factor $\gamma = 1$
  2. discount factor $\gamma$, kdy dochází ke změně policy

Zadání: verze 2

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4
$(B, \rightarrow,C,-3)$ $(B, \leftarrow,A,-1)$ $(C,\rightarrow,D,-3)$ $(C,\leftarrow,B,-1)$
$(C, \rightarrow,D,-3)$ $(A,\rightarrow,exit,6)$ $(D, \rightarrow, exit,6)$ $(B,\rightarrow,C,-3)$
$(D, \leftarrow, exit, 6)$ $(C,\leftarrow,B,-1)$
$(B,\leftarrow,A,-1)$
$(A,\leftarrow,exit,6)$

Určete:

  1. optimální policy u neterminálních stavů pro discount factor $\gamma = 1$
  2. discount factor $\gamma$, kdy dochází ke změně policy

Domácí úkol

Pro zajímavost

Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci