Table of Contents

3. Markovské rozhodovací procesy

Vaším úkolem je implementovat metody value iteration a policy iteration k nalezení optimální strategie (policy) pro zadaný MDP.

Specifikace

V modulu mdp_agent.py implementujte dvě třídy:

Rozhraní obou tříd bude shodné, obě musí implementovat následující metody:

metoda vstupní parametry výstupní parametry vysvětlení
__init__ env: MDPProblem, gamma: float, epsilon: float žádné Inicializace agenta.
find_policy žádné Policy Vrátí optimální strategii, tedy slovník dvojic (stav, akce).

Jak na to?

Odevzdání

Hodnocení

Seznamte se s bodovým hodnocením úlohy.