Table of Contents

07 Reinforcement I

Kvíz I - cena uzlů náhodné procházky

Kvíz II - Odhad policy z trénovacích epizod

Zadání 1 - základní:

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4
(B, →, C, -3) (B, ←, A, -1) (C, →, D, -3) (C, ←, B, -1)
(C, →, D, -3) (A, →, exit, 6) (D, →, exit,6) (B, →, C, -3)
(D, ←, exit, 6) (C, ←, B, -1)
(B, ←, A, -1)
(A, ←, exit, 6)

Úkoly:

Zadání 2 - rozšířené:

Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce (Oproti základní variantě jsou přidány Episody 5-8). Každý řádek v tabulce je n-tice $(s, a, s', r)$.

Episoda 1 Episoda 2 Episoda 3 Episoda 4 Episoda 5 Episoda 6 Episoda 7 Episoda 8
(B, →, C,-3) (B, ←, A, -1) (C, →, D, -3) (C, ←, B, -1) (B, ←, C, -3) (B, →, A, -1) (C, →, B, -1) (C, →, D, -3)
(C, → ,D, -3) (A, →, exit, 6) (D, →, exit, 6) (B, →, C, -3) (C, ←, B, -1) (A, →, exit, 6) (B, →, C, -3) (D, →, exit, 6)
(D, ←, exit, 6) (C, ←,B,-1) (B, ←,A,-1) (C, ←,D,-3)
(B, ←, A, -1) (A, ←, exit, 6) (D, ←, exit, 6)
(A, ←, exit, 6)

Úkoly:

Samostatná práce

Práce na úloze Markovské rozhodovací procesy.

Zkuste rozmyslet (příp. i implementovat) testy pro ověření správnosti specifikace.

Různé