====== 09 Reinforcement II ====== Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší. ===== Kvíz ===== Tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí ===== Samostatná práce ===== Práce na úloze [[courses:b3b33kui:cviceni:sekvencni_rozhodovani:rl|Posilované učení]]. ===== Reinforcement learning plus ===== Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci * [[https://www.youtube.com/watch?v=SH3bADiB7uQ|Table tennis robot player]]. Starting from imitation, then generalizing through RL. * [[https://research.google.com/teams/brain/robotics/|Robotics@google]]. Well, they can afford many learning episodes many iterations ;-) * [[https://medium.com/@dhruvp/how-to-write-a-neural-network-to-play-pong-from-scratch-956b57d4f6e0|Pong game]]. Learning to play the very old computer game with the help of AI-Gym. [[https://www.youtube.com/watch?time_continue=6&v=YOW8m2YGtRg|YT Video]]