Úloha z inteligentních agentů

Způsob vypracování

(viz úloha 1)

Hodnocení

(viz úloha 2)

Bonusy kromě angličtiny a Latexu i za použití GNU Plotu pro vykreslení grafů (+1 bod).

Odevzdání

Report s vypracováním semestrální práce odevzdávejte do upload systému ve formátu PDF (ať už jste jej připravili ve Wordu nebo v LaTeXu) a nejméně týden před dnem, kdy chcete získat zápočet.

Zároveň do systému odevzdejte vaší softwarovou implementaci. Musíte odevzdat všechny třídy, které jste použili k implementaci rozhraní ui.SolutionInterface. Odevzdáné zdrojové kódy musí být po přidaní zdrojových kódů testbedu kompilovatelné a spustitelné.

Experimtální platforma

!! NOVÁ VERZE !!

Poslední verze platformy včetně dokumentace je k dispozici zde – MDP Testbed v0.5 (21.5.2010)

Změny od předchozí verze: - funkce “Set non-goal rewards” nastaví hodnoty ve všech stavech kromě absorbujícího - všechny bludiště přidána do distribuce (netřeba hledat jinde) - přidáno testovací bludiště a jeho referenční řešení pro gamma = 0.99, espilon = 0.001 a r0 = -10

S dotazy ohledně platformy a implementace úlohy se obracejte na Petra Bendu (bendap1@labe.felk.cvut.cz).

Specifikace úkolů

POZOR ZMĚNA: Stačí implementovat iteraci hodnot!

Pro prostředí Labyrint naimplementujte algoritmus iterace hodnot (value iteration - slide 20 / přednáška 10) pro hledání optimální strategie. Algoritmus bude mít jako volitelné parametry diskontní faktor gamma, u úlohy/bludiště budete měnit diskontní faktor gamma a odměnu r0 za každý necílový stav (tj. mimo teleport a absorbující). Na nastavení r0 je v GUI editoru speciální tlačítko “Set non-goal rewards”.

Experimentujte s následujícími hodnotami těchto parametrů:

diskontní faktor (gamma): 0.5, 0.9, 0.99, 1
pokuta r0 (za každý krok): -10, -3, 0, 5
maximálni chyba (epsilon): 0.1, 0.01, 0.001

Reportujte výsledky

výsledné strategie pi(s) a užitková/hodnotové funkce stavu U(s) pro vybrané kombinace parametrů – vyberte si tři různé kombinace výše uvedených parametrů (gamma, r0, epsilon), které vám přijdou nejzajímavější a nejrůznorodější z hlediska výsledku.
závislost počtu iterací a celkového času běhu na
- na diskontním faktoru gamma (pro maximální chybu epsilon = 0.01 a r0 = -10)
- maximální chybě epsilon (pro diskontní faktor = 0.99 a r0 = -10)
reportujte zvlášť počet iterací nutných ke konvergenci užitkové/hodnotové funkce a konvergenci strategie, která vesměs nastává (mnohem) dříve (tj. změny hodnotové funkce jsou natolik malé, že neovlivní strategii z nich odvozenou)

Další informace viz Podrobne implementacni pokyny.

Bludiště jsou dostupné ve výše zmíněném archivu s testbedem v adresáři Mazes. Přiřazení bludišť pak tady.

Table of Contents