Table of Contents

Úloha z inteligentních agentů

Způsob vypracování

(viz úloha 1)

Hodnocení

(viz úloha 2)

Bonusy kromě angličtiny a Latexu i za použití GNU Plotu pro vykreslení grafů (+1 bod).

Odevzdání

Report s vypracováním semestrální práce odevzdávejte do upload systému ve formátu PDF (ať už jste jej připravili ve Wordu nebo v LaTeXu) a nejméně týden před dnem, kdy chcete získat zápočet.

Zároveň do systému odevzdejte vaší softwarovou implementaci. Musíte odevzdat všechny třídy, které jste použili k implementaci rozhraní ui.SolutionInterface. Odevzdáné zdrojové kódy musí být po přidaní zdrojových kódů testbedu kompilovatelné a spustitelné.

Experimtální platforma

!! NOVÁ VERZE !!

Poslední verze platformy včetně dokumentace je k dispozici zde – MDP Testbed v0.5 (21.5.2010)

Změny od předchozí verze: - funkce “Set non-goal rewards” nastaví hodnoty ve všech stavech kromě absorbujícího - všechny bludiště přidána do distribuce (netřeba hledat jinde) - přidáno testovací bludiště a jeho referenční řešení pro gamma = 0.99, espilon = 0.001 a r0 = -10

S dotazy ohledně platformy a implementace úlohy se obracejte na Petra Bendu (bendap1@labe.felk.cvut.cz).

Specifikace úkolů

POZOR ZMĚNA: Stačí implementovat iteraci hodnot!

Pro prostředí Labyrint naimplementujte algoritmus iterace hodnot (value iteration - slide 20 / přednáška 10) pro hledání optimální strategie. Algoritmus bude mít jako volitelné parametry diskontní faktor gamma, u úlohy/bludiště budete měnit diskontní faktor gamma a odměnu r0 za každý necílový stav (tj. mimo teleport a absorbující). Na nastavení r0 je v GUI editoru speciální tlačítko “Set non-goal rewards”.

Experimentujte s následujícími hodnotami těchto parametrů:

Reportujte výsledky

Další informace viz Podrobne implementacni pokyny.

Bludiště jsou dostupné ve výše zmíněném archivu s testbedem v adresáři Mazes. Přiřazení bludišť pak tady.