Pokračujeme v sekvenčním rozhodování. Jak počítat vhodnou policy přímo?
-40 | 30 | -50 |
-40 | r(A) = -1 | -50 |
-40 | r(B) = -1 | -50 |
Najděte optimální policy.
Pokračování v samostatné úloze Markovské rozhodovací procesy.
Implementace testů pro ověření správnosti specifikace.