08 Reinforcement II

Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.

Kvíz I

tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí
bodovaný, bonusových 0.5bodu
řešení odevzdat do BRUTE do úlohy lab08quiz, do půlnoci dne, kdy běží dané cvičení
formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
správné řešení prodiskutujeme na příštím cvičení

Zadání kvíz I

p. 101, St 12:45: Q Learning Cviceni 101
p. 102, St 14:30: Q Learning Cviceni 102
p. 103, Čt 12:45: Q Learning Cviceni 103
p. 105, Pá 9:15: Q Learning Cviceni 105

Kvíz II - Analýza vlivu discount faktoru na určování policy

vysvětlení na příkladu, on-line výuka
bez bodoveho hodnoceni
prezentace Discount factor example

Samostatná práce

Práce na úloze Posilované učení.

Reinforcement learning plus

Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci

Table tennis robot player. Starting from imitation, then generalizing through RL.
Robotics@google. Well, they can afford many learning episodes many iterations
Pong game. Learning to play the very old computer game with the help of AI-Gym. YT Video

Table of Contents