(viz úloha 1)
(viz úloha 2)
Bonusy kromě angličtiny a Latexu i za použití GNU Plotu pro vykreslení grafů (+1 bod).
Report s vypracováním semestrální práce odevzdávejte do upload systému ve formátu PDF (ať už jste jej připravili ve Wordu nebo v LaTeXu) a nejméně týden před dnem, kdy chcete získat zápočet.
Zároveň do systému odevzdejte vaší softwarovou implementaci. Musíte odevzdat všechny třídy, které jste použili k implementaci rozhraní ui.SolutionInterface. Odevzdáné zdrojové kódy musí být po přidaní zdrojových kódů testbedu kompilovatelné a spustitelné.
!! NOVÁ VERZE !!
Poslední verze platformy včetně dokumentace je k dispozici zde – MDP Testbed v0.5 (21.5.2010)
Změny od předchozí verze: - funkce “Set non-goal rewards” nastaví hodnoty ve všech stavech kromě absorbujícího - všechny bludiště přidána do distribuce (netřeba hledat jinde) - přidáno testovací bludiště a jeho referenční řešení pro gamma = 0.99, espilon = 0.001 a r0 = -10
S dotazy ohledně platformy a implementace úlohy se obracejte na Petra Bendu (bendap1@labe.felk.cvut.cz).
POZOR ZMĚNA: Stačí implementovat iteraci hodnot!
Pro prostředí Labyrint naimplementujte algoritmus iterace hodnot (value iteration - slide 20 / přednáška 10) pro hledání optimální strategie. Algoritmus bude mít jako volitelné parametry diskontní faktor gamma, u úlohy/bludiště budete měnit diskontní faktor gamma a odměnu r0 za každý necílový stav (tj. mimo teleport a absorbující). Na nastavení r0 je v GUI editoru speciální tlačítko “Set non-goal rewards”.
Experimentujte s následujícími hodnotami těchto parametrů:
Reportujte výsledky
Další informace viz Podrobne implementacni pokyny.
Bludiště jsou dostupné ve výše zmíněném archivu s testbedem v adresáři Mazes. Přiřazení bludišť pak tady.