Warning
This page is located in archive. Go to the latest version of this course pages. Go the latest version of this page.

3. Markovské rozhodovací procesy

Vaším úkolem je implementovat metody value iteration a policy iteration pro řešení zadaného MDP.

  • Úloha bude opět probíhat v prostředí KUIMaze:

    Stáhněte si archiv kuimaze.zip (Aktualizováno 21.4.2023)

    2023/03/11 16:50 · xposik

  • Termín odevzdání úlohy je uveden v BRUTE.

Specifikace

V modulu mdp_agent.py implementujte funkce

  1. find_policy_via_value_iteration(problem, discount_factor, epsilon) a
  2. find_policy_via_policy_iteration(problem, discount_factor).

Funkce mají následující parametry:

  • problem je prostředí, tj. objekt typu kuimaze.MDPMaze
  • discount_factor je z rozmezi (0,1)
  • epsilon je maximalní povolená chyba pro Value jednotlivých stavů (pouze pro value iteration)

Očekávaný výstup: obě funkce by měly vracet strategii (policy) reprezentovanou jako slovník, kde klíčem je buď instance třídy State nebo tuple (x,y) a hodnotou je optimální akce pro daný stav. Stačí uvažovat dosažitelné stavy a pro terminální stavy nechť je výstup None.

Modul mdp_agent.py odevzdejte do BRUTE.

Timeout: na jednotlivé běhy value/policy iteration pro danou instanci problému máte časový limit 30s.

Odevzdané řešení musí odpovídat algoritmům ze zadání. Například není možné místo algoritmu policy iteration odevzdat kód pro value iteration. V takovém případě může být celá úloha ohodnocena nula body.

Jak na to?

courses/b3b33kui/semestralni_ulohy/3_mdp/start.txt · Last modified: 2023/04/29 11:01 by xposik