====== Sekvenční rozhodování za neurčitosti ======
Chceme najít optimální policy - pro každý stav optimální rozhodnutí - akci.

===== Markovské rozhodování (MDPs) =====
Akce robota/agenta je nejistá, ale rozdělení pravděpodobnosti je známé, a navíc máte k dispozici mapu - můžete zkoušet dopředu.

[[.:mdps|Zadání úlohy]]

===== Posilované učení =====
Akce robota/agenta je nejistá, navíc mapu nemáme, musíme prostředí prozkoumat (explorace) a zároveň se při tom učit ze zkušenosti.

[[.:rl|Zadání úlohy]]