Sekvenční rozhodování za neurčitosti

Chceme najít optimální policy - pro každý stav optimální rozhodnutí - akci.

Markovské rozhodování (MDPs)

Akce robota/agenta je nejistá, ale rozdělení pravděpodobnosti je známé, a navíc máte k dispozici mapu - můžete zkoušet dopředu.

Akce robota/agenta je nejistá, navíc mapu nemáme, musíme prostředí prozkoumat (explorace) a zároveň se při tom učit ze zkušenosti.