08 Reinforcement II
Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.
Kvíz I
tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí
bodovaný, bonusových 0.5bodu
řešení odevzdat do BRUTE do úlohy lab08quiz, do půlnoci dne, kdy běží dané cvičení
formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
správné řešení prodiskutujeme na příštím cvičení
Zadání kvíz I
Kvíz II - Analýza vlivu discount faktoru na určování policy
Samostatná práce
Reinforcement learning plus
Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci
Robotics@google. Well, they can afford many learning episodes many iterations
Pong game. Learning to play the very old computer game with the help of AI-Gym.
YT Video