Table of Contents

Sekvenční rozhodování za neurčitosti

Chceme najít optimální policy - pro každý stav optimální rozhodnutí - akci.

Markovské rozhodování (MDPs)

Akce robota/agenta je nejistá, ale rozdělení pravděpodobnosti je známé, a navíc máte k dispozici mapu - můžete zkoušet dopředu.

Zadání úlohy

Posilované učení

Akce robota/agenta je nejistá, navíc mapu nemáme, musíme prostředí prozkoumat (explorace) a zároveň se při tom učit ze zkušenosti.

Zadání úlohy