Warning
This page is located in archive. Go to the latest version of this course pages.

AI Gym: Frozen Lake

Za výběr úlohy děkuji Jiřímu Valáškovi.

Popis prostředí Frozen Lake na AI Gym.

Problém

Je zadána 2D mapa 8×8 / 4×4 s počáteční a cílovou polohou, ledem a dírami. Úkolem je navrhnout takovou řídicí strategii, která vám umožní dostat se co nejrychleji do cíle, aniž byste spadli do díry s ledovou vodou. V mapě se pohybujete doprava, doleva, nahoru a dolů. Led může být

  • nekluzký, takže se pohybujeme ve směru, kam chceme, nebo
  • kluzký, takže se pohybujeme náhodně a do stran (chceme-li nahoru, pak p(nahoru) = 0.33, p(doleva) = 0.33, p(doprava) = 0.33, p(dolu) = 0), rozdělení těchto pravděpodobností se dá upravit, aby nebylo rovnoměrné).

Simulace končí pokud jsme spadli do díry, nebo našli cíl.

Hodnocení od AI GYM je

  • 0, pokud jsme spadli do díry
  • 1, pokud jsme došli do cíle

Pro kluzký povrch můžeme použít N běhů a spočítat pravděpodobnost dosažení cíle. Pro nekluzký povrch je problém, že budeme mít hodnoticí funkci 0, kdykoliv jsme nedošli do cíle bez rozdílu, jak daleko jsme došli. (Možno přepsat na inverzní (1/x) manhattonovskou vzdálenost do cíle + penalizace za díry ?)

Možné reprezentace

  • 4×4/8×8 matice/vektor (možno zadat i větší) reprezentující strategii (policy): hodnota v každé buňce říká, kterým směrem se chcete dát.
  • (Návrh od PP, nevím, zda je to realizovatelné:) Matice/vektor čísel představujících výhodnost políčka (jak vhodné je jít přes něj do cíle). Rozhodnutí v každém políčku je pak dáno směrem, v němž leží nejvýhodnější soused.

Úkoly

  • najít co nejlepší strategii
  • zkusit menší/větší mapu, pokud úloha bude moc/málo těžká
  • zkusit změnit hodnocení a řešit i nekluzký led
  • zkusit různé pravděpodobnostní rozdělení sklouznutí

Doporučení od PP

  • Změnit vizuální reprezentaci políček mapy, díry (H) nahradit třeba znakem .
  • Ujistěte se, že při opakovaných spouštěních používáte vždy stejnou mapu. Neinicializuje třeba AI Gym pokaždé mapu jinak?
  • Zafixujte si hodnotící funkci. Pokud to snadno jde, doporučuji, aby vracela detailnější hodnoty, než jen 0 a 1. Vzdálenost k cíli je dobrý kandidát. Zároveň by ale mělo platit, že delší cesta, kterou se dostanete spolehlivě do cíle, je lepší než krátká cesta, která skončí v díře blízko cíle.
courses/a0m33eoa/semestralni_ulohy/aigym/frozen_lake/start.txt · Last modified: 2019/11/18 16:26 by xposik