====== Úloha z inteligentních agentů ======

===== Způsob vypracování =====
(viz úloha 1)


===== Hodnocení =====
(viz úloha 2)

Bonusy kromě angličtiny a Latexu i za použití GNU Plotu pro vykreslení grafů (+1 bod).

===== Odevzdání =====
**Report** s vypracováním semestrální práce odevzdávejte do [[https://cw.felk.cvut.cz/upload/|upload systému]] ve formátu PDF (ať už jste jej připravili ve Wordu nebo v LaTeXu) a nejméně týden před dnem, kdy chcete získat zápočet.

Zároveň do systému odevzdejte vaší **softwarovou implementaci**. Musíte odevzdat všechny třídy, které jste použili k implementaci rozhraní ui.SolutionInterface. Odevzdáné zdrojové kódy musí být po přidaní zdrojových kódů testbedu kompilovatelné a spustitelné. 

===== Experimtální platforma =====
**!! NOVÁ VERZE !!**

Poslední verze platformy včetně dokumentace je k dispozici zde -- {{:courses:a3m33ui:ulohy:mdptestbed-v0.5.zip|MDP Testbed v0.5}} (21.5.2010)

Změny od předchozí verze:
- funkce "Set non-goal rewards" nastaví hodnoty ve všech stavech kromě absorbujícího
- všechny bludiště přidána do distribuce (netřeba hledat jinde)
- přidáno testovací bludiště a jeho referenční řešení pro gamma = 0.99, espilon = 0.001 a r0 = -10
 
**S dotazy ohledně platformy a implementace úlohy se obracejte na Petra Bendu (bendap1@labe.felk.cvut.cz).**

===== Specifikace úkolů =====
**POZOR ZMĚNA: Stačí implementovat iteraci hodnot!**

Pro prostředí Labyrint naimplementujte algoritmus iterace hodnot (value iteration - slide 20 / přednáška 10) pro hledání optimální strategie.  Algoritmus bude mít jako volitelné parametry diskontní faktor gamma, u úlohy/bludiště budete měnit diskontní faktor gamma a odměnu r0 za každý necílový stav (tj. mimo teleport a absorbující). Na nastavení r0 je v GUI editoru speciální tlačítko "Set non-goal rewards".

Experimentujte s následujícími hodnotami těchto parametrů:

  * diskontní faktor (gamma): 0.5, 0.9, 0.99, 1
  * pokuta r0 (za každý krok): -10, -3, 0, 5
  * maximálni chyba (epsilon): 0.1, 0.01, 0.001

Reportujte výsledky
  * výsledné strategie pi(s) a užitková/hodnotové funkce stavu U(s) pro vybrané kombinace parametrů -- vyberte si tři různé kombinace výše uvedených parametrů (gamma, r0, epsilon), které vám přijdou nejzajímavější a nejrůznorodější z hlediska výsledku. 
  * závislost počtu iterací a celkového času běhu na
    * na diskontním faktoru gamma (pro maximální chybu epsilon = 0.01 a r0 = -10)
    * maximální chybě epsilon (pro diskontní faktor = 0.99 a r0 = -10)
  * reportujte zvlášť počet iterací nutných ke konvergenci užitkové/hodnotové funkce a konvergenci strategie, která vesměs nastává (mnohem) dříve (tj. změny hodnotové funkce jsou natolik malé, že neovlivní strategii z nich odvozenou)

Další informace viz [[Podrobne implementacni pokyny]]. 

Bludiště jsou dostupné ve výše zmíněném archivu s testbedem v adresáři Mazes. Přiřazení bludišť pak [[prirazeni bludist|tady]].