Warning
This page is located in archive.

08 Reinforcement II

Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.

Kvíz I

  • tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí
  • bodovaný, bonusových 0.5bodu
  • řešení odevzdat do BRUTE do úlohy lab08quiz, do půlnoci dne, kdy běží dané cvičení
  • formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
  • správné řešení prodiskutujeme na příštím cvičení

Zadání kvíz I

Kvíz II - Analýza vlivu discount faktoru na určování policy

Samostatná práce

Práce na úloze Posilované učení.

Reinforcement learning plus

Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci

courses/b3b33kui/cviceni/program_po_tydnech/tyden_09.txt · Last modified: 2020/04/30 17:46 by kostkja2