Search
Vaším úkolem je implementovat metody value iteration a policy iteration k nalezení optimální strategie (policy) pro zadaný MDP.
V modulu mdp_agent.py implementujte dvě třídy:
mdp_agent.py
ValueIterationAgent
PolicyIterationAgent
Rozhraní obou tříd bude shodné, obě musí implementovat následující metody:
__init__
env: MDPProblem
gamma: float
epsilon: float
find_policy
Policy
env
kuimaze2.MDPProblem
gamma
(0,1)
epsilon
find_policy()
kuimaze2.State
kuimaze2.Action
PolicyIterationAgent.find_policy()
ValueIteration.find_policy()
MDPProblem
_
kuimaze2
example_mdp.py
class MDPAgent: # Parts common to both methods/agents ... class ValueIterationAgent(MDPAgent): # Parts specific for value iteration ... class PolicyIterationAgent(MDPAgent): # Parts specific for policy iteration ...
08-MDPs
Seznamte se s bodovým hodnocením úlohy.