05 Sequential I

Co když musíme rozhodovat vícekrát, za neurčitosti, a jedno rozhodnutí ovlivňuje i ty další?

Výsledky učení

Po tomto cvičení student

umí ohodnotit uzly v herním stromě dvouhráčové hry s náhodou (algoritmus expectiminimax);
chápe princip prořezávání větví v takovém stromě a rozdíl oproti $\alpha-\beta$ prořezávání ve stromech bez náhody;
umí definovat Markovský rozhodovací proces a rozumí pojmům strategie (policy), epizoda, či return;
umí odhadnout hodnotu stavu pomocí několika epizod.

[bez bodoveho hodnoceni]

Co vše potřebujete znát, abyste měli plně specifikován Markovský rozhodovací proces (MDP)?
Co je strategie (policy)? Co je epizoda?
Jak se počítá “return” z nějaké epizody? Jak lze pomocí několika epizod odhadnout hodnotu stavu?

[bez bodoveho hodnoceni]