05 Sequential I

Co když musíme rozhodovat vícekrát, za neurčitosti, a jedno rozhodnutí ovlivňuje i ty další?

Výsledky učení

Po tomto cvičení student

  • umí ohodnotit uzly v herním stromě dvouhráčové hry s náhodou (algoritmus expectiminimax);
  • chápe princip prořezávání větví v takovém stromě a rozdíl oproti $\alpha-\beta$ prořezávání ve stromech bez náhody;
  • umí definovat Markovský rozhodovací proces a rozumí pojmům strategie (policy), epizoda, či return;
  • umí odhadnout hodnotu stavu pomocí několika epizod.

Program

  • Bonusový kvíz
  • Cvičení: dvouhráčová hra s náhodou, prořezání herního stromu.
  • Cvičení: odhad kvality strategie pro MDP z pozorovaných epizod.

Bonusový kvíz

  • Grid world a pravděpodobnost dosažení koncového stavu.
  • Konkrétní zadání dostanete na cvičení.

Expectiminimax

  • V uzlech náhody jsou následníci stejně pravděpodobní.
  • Hodnoty stavů jsou v rozmezí [-10, 10].
  • Ohodnoťte následující strom a rozhodněte, které jeho větve můžete odříznout.

[bez bodoveho hodnoceni]

Úvod do MDP

  • Co vše potřebujete znát, abyste měli plně specifikován Markovský rozhodovací proces (MDP)?
  • Co je strategie (policy)? Co je epizoda?
  • Jak se počítá “return” z nějaké epizody? Jak lze pomocí několika epizod odhadnout hodnotu stavu?

[bez bodoveho hodnoceni]

Domácí úkol

  • Dokončete úlohu Reversi (deadline v BRUTE), nepropásněte turnaj!
courses/b3b33kui/cviceni/program_po_tydnech/tyden_06.txt · Last modified: 2026/03/23 09:17 by xposik