V úlohách MDP a RL mají funkce find_policy_…()
a learn_policy()
vracet tzv. strategii (policy). V zadání se uvádí, že by měla být reprezentována slovníkem. Občas ale studenti odevzdají řešení, kde funkce vrací něco jiného, nebo obsah slovníku není formálně správný, což svědčí o tom, že neporozuměli dobře specifikacím. Jako autoři řešení byste měli sami být schopni otestovat, zda návratová hodnota funkce odpovídá požadavkům. Jak na to?
Jaké požadavky by tedy měla vrácená strategie (policy) splňovat?
env
)?
pytest
.
pytest
testů.
Automatizované testy vám umožní