08 Reinforcement II

Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.

Výsledky učení

Po tomto cvičení student

  • rozumí, jakým způsobem může discount faktor, příp. další parametry MDP, ovlivňovat výslednou strategii.

Program

  • Odpovědi na dotazy
  • Bonusový kvíz
  • Úloha: vliv discount faktoru na výslednou strategii
  • Představení úlohy na RL

Bonusový kvíz

  • tradiční kvíz, tentokrát na přímý výpočet Q hodnot z trénovacích epizod

Úloha: Vliv discount faktoru na výslednou strategii

  • vysvětlení na příkladu
  • bez bodoveho hodnoceni

Zadání: verze 1

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r')$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4
$(B, \rightarrow,C,-1)$ $(B, \leftarrow,A,-1)$ $(C,\rightarrow,D,-1)$ $(C,\leftarrow,B,-1)$
$(C, \rightarrow,D,-1)$ $(A,\rightarrow,exit,10)$ $(D, \rightarrow, exit,6)$ $(B,\rightarrow,C,-1)$
$(D, \leftarrow, exit, 6)$ $(C,\leftarrow,B,-1)$
$(B,\leftarrow,A,-1)$
$(A,\leftarrow,exit,10)$

Určete:

  1. optimální policy u neterminálních stavů pro discount factor $\gamma = 1$
  2. discount factor $\gamma$, kdy dochází ke změně policy

Zadání: verze 2

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4
$(B, \rightarrow,C,-3)$ $(B, \leftarrow,A,-1)$ $(C,\rightarrow,D,-3)$ $(C,\leftarrow,B,-1)$
$(C, \rightarrow,D,-3)$ $(A,\rightarrow,exit,6)$ $(D, \rightarrow, exit,6)$ $(B,\rightarrow,C,-3)$
$(D, \leftarrow, exit, 6)$ $(C,\leftarrow,B,-1)$
$(B,\leftarrow,A,-1)$
$(A,\leftarrow,exit,6)$

Určete:

  1. optimální policy u neterminálních stavů pro discount factor $\gamma = 1$
  2. discount factor $\gamma$, kdy dochází ke změně policy

Domácí úkol

Pro zajímavost

Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci

courses/b3b33kui/cviceni/program_po_tydnech/tyden_09.txt · Last modified: 2026/04/07 14:14 by xposik