07 Reinforcement I

 • Kontrola výsledků turnaje Reversi. Hlaste podivnosti.
 • Odpovědi na dotazy.
 • Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím.

Kvíz I - cena uzlů náhodné procházky

 • tradiční kvíz, tentokrát na výpočet hodnot stavů při náhodné procházce

Kvíz II - Odhad policy z trénovacích epizod

 • vysvětlení na příkladu
 • bez bodoveho hodnoceni

Zadání 1 - základní:

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4
(B, →, C, -3) (B, ←, A, -1) (C, →, D, -3) (C, ←, B, -1)
(C, →, D, -3) (A, →, exit, 6) (D, →, exit,6) (B, →, C, -3)
(D, ←, exit, 6) (C, ←, B, -1)
(B, ←, A, -1)
(A, ←, exit, 6)

Úkoly:

 • Jeví se svět deterministicky, nebo stochasticky?
 • Jak byste odhadli přechodový model?
 • Jak byste odhadli reward funkci?
 • Pro neterminální stavy určete optimální policy.

Zadání 2 - rozšířené:

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce (Oproti základní variantě jsou přidány Episody 5-8). Každý řádek v tabulce je n-tice $(s, a, s', r)$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4 Episoda 5 Episoda 6 Episoda 7 Episoda 8
(B, →, C,-3) (B, ←, A, -1) (C, →, D, -3) (C, ←, B, -1) (B, ←, C, -3) (B, →, A, -1) (C, →, B, -1) (C, →, D, -3)
(C, → ,D, -3) (A, →, exit, 6) (D, →, exit, 6) (B, →, C, -3) (C, ←, B, -1) (A, →, exit, 6) (B, →, C, -3) (D, →, exit, 6)
(D, ←, exit, 6) (C, ←,B,-1) (B, ←,A,-1) (C, ←,D,-3)
(B, ←, A, -1) (A, ←, exit, 6) (D, ←, exit, 6)
(A, ←, exit, 6)

Úkoly:

 • Jeví se svět deterministicky, nebo stochasticky?
 • Jak byste odhadli přechodový model?
 • Jak byste odhadli reward funkci?
 • Pro neterminální stavy určete optimální policy.

Samostatná práce

Práce na úloze Markovské rozhodovací procesy.

Zkuste rozmyslet (příp. i implementovat) testy pro ověření správnosti specifikace.

Různé

courses/b3b33kui/cviceni/program_po_tydnech/tyden_08.txt · Last modified: 2024/04/04 14:55 by xposik