Warning
This page is located in archive. Go to the latest version of this course pages. Go the latest version of this page.

08 Reinforcement II

Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.

Kvíz I

Tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí [0.5bodu]

Kvíz II

[bez bodoveho hodnoceni]

Samostatná práce

Práce na úloze Posilované učení.

Reinforcement learning plus

Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci

courses/b3b33kui/cviceni/program_po_tydnech/tyden_09.txt · Last modified: 2019/04/10 12:37 by kostkja2