Warning
This page is located in archive.

Sekvenční rozhodování za neurčitosti

Chceme najít optimální policy - pro každý stav optimální rozhodnutí - akci.

Markovské rozhodování (MDPs)

Akce robota/agenta je nejistá, ale rozdělení pravděpodobnosti je známé, a navíc máte k dispozici mapu - můžete zkoušet dopředu.

Zadání úlohy

Posilované učení

Akce robota/agenta je nejistá, navíc mapu nemáme, musíme prostředí prozkoumat (explorace) a zároveň se při tom učit ze zkušenosti.

Zadání úlohy

courses/b3b33kui/cviceni/sekvencni_rozhodovani/start.txt · Last modified: 2018/04/10 10:41 by svobodat