08 Reinforcement II

Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.

Kvíz I

tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí
bodovaný, bonusových 0.5bodu
řešení odevzdat do BRUTE do úlohy lab08quiz, do půlnoci dne, kdy běží dané cvičení
formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
správné řešení prodiskutujeme na příštím cvičení

Zadání kvíz I

p. 101, St 12:45: cv101
p. 102, St 14:30: cv102
p. 103, Čt 12:45: cv103
p. 104, Čt 14:30: cv104
p. 105, Pá 9:15: cv105

Kvíz II - Analýza vlivu discount faktoru na určování policy

vysvětlení na příkladu, on-line výuka
bez bodoveho hodnoceni
prezentace Discount factor example

Samostatná práce

Práce na úloze Markovské rozhodovací procesy.

Můžete postupně začít pracovat na úloze Posilované učení.

Reinforcement learning plus

Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci

Table tennis robot player. Starting from imitation, then generalizing through RL.
Robotics@google. Well, they can afford many learning episodes many iterations
Pong game. Learning to play the very old computer game with the help of AI-Gym. YT Video

Table of Contents