====== Sekvenční rozhodování za neurčitosti ====== Chceme najít optimální policy - pro každý stav optimální rozhodnutí - akci. ===== Markovské rozhodování (MDPs) ===== Akce robota/agenta je nejistá, ale rozdělení pravděpodobnosti je známé, a navíc máte k dispozici mapu - můžete zkoušet dopředu. [[.:mdps|Zadání úlohy]] ===== Posilované učení ===== Akce robota/agenta je nejistá, navíc mapu nemáme, musíme prostředí prozkoumat (explorace) a zároveň se při tom učit ze zkušenosti. [[.:rl|Zadání úlohy]]