09 Reinforcement II

Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.

Kvíz

Tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí

Samostatná práce

Reinforcement learning plus

Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci

Table tennis robot player. Starting from imitation, then generalizing through RL.
Robotics@google. Well, they can afford many learning episodes many iterations
Pong game. Learning to play the very old computer game with the help of AI-Gym. YT Video

Table of Contents

09 Reinforcement II

Kvíz

Samostatná práce

Reinforcement learning plus