Search
Vaším úkolem je implementovat metody value iteration a policy iteration pro řešení zadaného MDP.
Stáhněte si archiv kuimaze.zip (Aktualizováno 21.4.2023)
V modulu mdp_agent.py implementujte funkce
mdp_agent.py
find_policy_via_value_iteration(problem, discount_factor, epsilon)
find_policy_via_policy_iteration(problem, discount_factor)
Funkce mají následující parametry:
problem
kuimaze.MDPMaze
discount_factor
(0,1)
epsilon
Očekávaný výstup: obě funkce by měly vracet strategii (policy) reprezentovanou jako slovník, kde klíčem je buď instance třídy State nebo tuple (x,y) a hodnotou je optimální akce pro daný stav. Stačí uvažovat dosažitelné stavy a pro terminální stavy nechť je výstup None.
State
None
Modul mdp_agent.py odevzdejte do BRUTE.
Timeout: na jednotlivé běhy value/policy iteration pro danou instanci problému máte časový limit 30s.
MDPMaze
mdp_sandbox.py