====== Úloha z inteligentních agentů ====== ===== Způsob vypracování ===== (viz úloha 1) ===== Hodnocení ===== (viz úloha 2) Bonusy kromě angličtiny a Latexu i za použití GNU Plotu pro vykreslení grafů (+1 bod). ===== Odevzdání ===== **Report** s vypracováním semestrální práce odevzdávejte do [[https://cw.felk.cvut.cz/upload/|upload systému]] ve formátu PDF (ať už jste jej připravili ve Wordu nebo v LaTeXu) a nejméně týden před dnem, kdy chcete získat zápočet. Zároveň do systému odevzdejte vaší **softwarovou implementaci**. Musíte odevzdat všechny třídy, které jste použili k implementaci rozhraní ui.SolutionInterface. Odevzdáné zdrojové kódy musí být po přidaní zdrojových kódů testbedu kompilovatelné a spustitelné. ===== Experimtální platforma ===== **!! NOVÁ VERZE !!** Poslední verze platformy včetně dokumentace je k dispozici zde -- {{:courses:a3m33ui:ulohy:mdptestbed-v0.5.zip|MDP Testbed v0.5}} (21.5.2010) Změny od předchozí verze: - funkce "Set non-goal rewards" nastaví hodnoty ve všech stavech kromě absorbujícího - všechny bludiště přidána do distribuce (netřeba hledat jinde) - přidáno testovací bludiště a jeho referenční řešení pro gamma = 0.99, espilon = 0.001 a r0 = -10 **S dotazy ohledně platformy a implementace úlohy se obracejte na Petra Bendu (bendap1@labe.felk.cvut.cz).** ===== Specifikace úkolů ===== **POZOR ZMĚNA: Stačí implementovat iteraci hodnot!** Pro prostředí Labyrint naimplementujte algoritmus iterace hodnot (value iteration - slide 20 / přednáška 10) pro hledání optimální strategie. Algoritmus bude mít jako volitelné parametry diskontní faktor gamma, u úlohy/bludiště budete měnit diskontní faktor gamma a odměnu r0 za každý necílový stav (tj. mimo teleport a absorbující). Na nastavení r0 je v GUI editoru speciální tlačítko "Set non-goal rewards". Experimentujte s následujícími hodnotami těchto parametrů: * diskontní faktor (gamma): 0.5, 0.9, 0.99, 1 * pokuta r0 (za každý krok): -10, -3, 0, 5 * maximálni chyba (epsilon): 0.1, 0.01, 0.001 Reportujte výsledky * výsledné strategie pi(s) a užitková/hodnotové funkce stavu U(s) pro vybrané kombinace parametrů -- vyberte si tři různé kombinace výše uvedených parametrů (gamma, r0, epsilon), které vám přijdou nejzajímavější a nejrůznorodější z hlediska výsledku. * závislost počtu iterací a celkového času běhu na * na diskontním faktoru gamma (pro maximální chybu epsilon = 0.01 a r0 = -10) * maximální chybě epsilon (pro diskontní faktor = 0.99 a r0 = -10) * reportujte zvlášť počet iterací nutných ke konvergenci užitkové/hodnotové funkce a konvergenci strategie, která vesměs nastává (mnohem) dříve (tj. změny hodnotové funkce jsou natolik malé, že neovlivní strategii z nich odvozenou) Další informace viz [[Podrobne implementacni pokyny]]. Bludiště jsou dostupné ve výše zmíněném archivu s testbedem v adresáři Mazes. Přiřazení bludišť pak [[prirazeni bludist|tady]].