Search
V úlohách MDP a RL mají funkce find_policy_…() a learn_policy() vracet tzv. strategii (policy). V zadání se uvádí, že by měla být reprezentována slovníkem. Občas ale studenti odevzdají řešení, kde funkce vrací něco jiného, nebo obsah slovníku není formálně správný, což svědčí o tom, že neporozuměli dobře specifikacím. Jako autoři řešení byste měli sami být schopni otestovat, zda návratová hodnota funkce odpovídá požadavkům. Jak na to?
find_policy_…()
learn_policy()
Jaké požadavky by tedy měla vrácená strategie (policy) splňovat?
env
pytest
Automatizované testy vám umožní