Warning
This page is located in archive. Go to the latest version of this course pages. Go the latest version of this page.

08 Reinforcement II

Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.

Kvíz I

  • tradiční kvíz, tentokrát na přímý výpočet Q hodnot z trénovacích epizod

Kvíz II - Analýza vlivu discount faktoru na určování policy

  • vysvětlení na příkladu
  • bez bodoveho hodnoceni

Zadání verze1:

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r')$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4
$(B, \rightarrow,C,-1)$ $(B, \leftarrow,A,-1)$ $(C,\rightarrow,D,-1)$ $(C,\leftarrow,B,-1)$
$(C, \rightarrow,D,-1)$ $(A,\rightarrow,exit,10)$ $(D, \rightarrow, exit,6)$ $(B,\rightarrow,C,-1)$
$(D, \leftarrow, exit, 6)$ $(C,\leftarrow,B,-1)$
$(B,\leftarrow,A,-1)$
$(A,\leftarrow,exit,10)$

Určete:

  1. optimální policy u neterminálních stavů pro discount factor $\gamma = 1$
  2. discount factor $\gamma$, kdy dochází ke změně policy

Zadání verze2:

(Svět jako v “Odhad policy z trénovacích epizod, zadání 1 - základní”)

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4
$(B, \rightarrow,C,-3)$ $(B, \leftarrow,A,-1)$ $(C,\rightarrow,D,-3)$ $(C,\leftarrow,B,-1)$
$(C, \rightarrow,D,-3)$ $(A,\rightarrow,exit,6)$ $(D, \rightarrow, exit,6)$ $(B,\rightarrow,C,-3)$
$(D, \leftarrow, exit, 6)$ $(C,\leftarrow,B,-1)$
$(B,\leftarrow,A,-1)$
$(A,\leftarrow,exit,6)$

Určete:

  1. optimální policy u neterminálních stavů pro discount factor $\gamma = 1$
  2. discount factor $\gamma$, kdy dochází ke změně policy

Samostatná práce

Dokončete práci na úloze Markovské rozhodovací procesy.

Můžete postupně začít pracovat na úloze Posilované učení.

Reinforcement learning plus

Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci

courses/b3b33kui/cviceni/program_po_tydnech/tyden_09.txt · Last modified: 2023/04/28 16:42 by xposik