CourseWare Wiki
Switch Term
Summer 2023 / 2024
Summer 2022 / 2023
Summer 2021 / 2022
Summer 2020 / 2021
Summer 2019 / 2020
Summer 2018 / 2019
Summer 2017 / 2018
Older
Search
Log In
b232
courses
b3b33kui
cviceni
program_po_tydnech
tyden_08
Differences
This shows you the differences between two versions of the page.
View differences:
Side by Side
Inline
Go
Link to this comparison view
Both sides previous revision
Previous revision
2024/04/04 14:55 xposik [Samostatná práce]
2024/04/04 12:43 xposik [Zadání 1 - základní:]
2024/04/04 12:39 xposik [Zadání 2 - rozšířené:]
2024/04/04 12:36 xposik [Zadání 2 - rozšířené:]
2024/04/04 12:35 xposik [Zadání 2 - rozšířené:]
2024/04/04 12:33 xposik [Samostatná práce]
2024/04/04 12:30 xposik [Zadání 2 - rozšířené:]
2024/04/04 12:28 xposik [Zadání 1 - základní:]
2024/04/04 12:27 xposik [Zadání 1 - základní:]
2024/04/04 12:23 xposik [Kvíz I - cena uzlů náhodné procházky]
2024/04/03 10:40 kostkja2 [Zadání 2 - rozšířené:]
2024/04/03 10:39 kostkja2 [Zadání 1 - základní:]
2024/04/03 10:36 kostkja2 [Kvíz II - Odhad policy z trénovacích epizod]
2023/04/28 16:53 external edit
Go
Previous revision
2024/04/04 14:55 xposik [Samostatná práce]
2024/04/04 12:43 xposik [Zadání 1 - základní:]
2024/04/04 12:39 xposik [Zadání 2 - rozšířené:]
2024/04/04 12:36 xposik [Zadání 2 - rozšířené:]
2024/04/04 12:35 xposik [Zadání 2 - rozšířené:]
2024/04/04 12:33 xposik [Samostatná práce]
2024/04/04 12:30 xposik [Zadání 2 - rozšířené:]
2024/04/04 12:28 xposik [Zadání 1 - základní:]
2024/04/04 12:27 xposik [Zadání 1 - základní:]
2024/04/04 12:23 xposik [Kvíz I - cena uzlů náhodné procházky]
2024/04/03 10:40 kostkja2 [Zadání 2 - rozšířené:]
2024/04/03 10:39 kostkja2 [Zadání 1 - základní:]
2024/04/03 10:36 kostkja2 [Kvíz II - Odhad policy z trénovacích epizod]
2023/04/28 16:53 external edit
Go
Last revision
Both sides next revision
courses:b3b33kui:cviceni:program_po_tydnech:tyden_08 [2019/04/05 08:14]
courses:b3b33kui:cviceni:program_po_tydnech:tyden_08 [2024/04/04 12:43]
xposik
[Zadání 1 - základní:]
Line 1:
Line 1:
+
====== 07 Reinforcement I ======
+
* Kontrola výsledků turnaje Reversi. [[mailto:petr.posik@cvut.cz|Hlaste podivnosti]].
+
* Odpovědi na dotazy.
+
* Model robota-agenta neznáme, chová se nějak podivně, cestu k cíli neznáme, po cestě navíc nějaké pasti, co s tím.
+
===== Kvíz I - cena uzlů náhodné procházky =====
+
* tradiční kvíz, tentokrát na výpočet hodnot stavů při náhodné procházce
+
+
/*
+
* bodovaný, bonusových 0.5bodu
+
* řešení odevzdat do BRUTE do úlohy **lab09quiz**, do půlnoci dne, kdy běží dané cvičení
+
* formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst
+
* správné řešení prodiskutujeme na příštím cvičení
+
*/
+
+
/*
+
==== Zadání kvíz I ====
+
* p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv101.pdf | cv101}}
+
* p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv102}}
+
* p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p103.pdf |cv103}}
+
* p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210413-160732_cv102.pdf | cv104}}
+
* p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_p105.pdf |cv105}}
+
*/
+
+
> {{page>courses:b3b33kui:internal:quizzes#Cena uzlů náhodné procházky}}
+
+
===== Kvíz II - Odhad policy z trénovacích epizod=====
+
* vysvětlení na příkladu
+
* bez bodoveho hodnoceni
+
+
==== Zadání 1 - základní: ====
+
Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.
+
^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^
+
| (B, ->, C, -3) | (B, <-, A, -1) | (C, ->, D, -3) | (C, <-, B, -1) |
+
| (C, ->, D, -3) | (A, ->, exit, 6) | (D, ->, exit,6) | (B, ->, C, -3) |
+
| (D, <-, exit, 6) | | | (C, <-, B, -1) |
+
| | | | (B, <-, A, -1) |
+
| | | | (A, <-, exit, 6) |
+
+
+
Úkoly:
+
* Jeví se svět deterministicky, nebo stochasticky?
+
* Jak byste odhadli přechodový model?
+
* Jak byste odhadli reward funkci?
+
* Pro neterminální stavy určete optimální policy.
+
+
> {{page>courses:b3b33kui:internal:quizzes#Odhad policy - řešení 1}}
+
+
+
==== Zadání 2 - rozšířené: ====
+
Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce (Oproti základní variantě jsou přidány Episody 5-8). Každý řádek v tabulce je n-tice $(s, a, s', r)$.
+
^ Episoda 1 ^ Episoda 2 ^ Episoda 3 ^ Episoda 4 ^ Episoda 5 ^ Episoda 6 ^ Episoda 7 ^ Episoda 8 ^
+
| (B, ->, C,-3) | (B, <-, A, -1) | (C, ->, D, -3) | (C, <-, B, -1) | (B, <-, C, -3) | (B, ->, A, -1) | (C, ->, B, -1) | (C, ->, D, -3) |
+
| (C, -> ,D, -3) | (A, ->, exit, 6) | (D, ->, exit, 6) | (B, ->, C, -3) | (C, <-, B, -1) | (A, ->, exit, 6) | (B, ->, C, -3) | (D, ->, exit, 6) |
+
| (D, <-, exit, 6) | | | (C, <-,B,-1) | (B, <-,A,-1) | | (C, <-,D,-3) | |
+
| | | | (B, <-, A, -1) | (A, <-, exit, 6) | | (D, <-, exit, 6) | |
+
| | | | (A, <-, exit, 6) | | | | |
+
+
+
/*| $(B, \rightarrow,C,-3)$ |$(B, \leftarrow,A,-1)$ | $(C,\rightarrow,D,-3)$| $(C,\leftarrow,B,-1)$| $(B,\leftarrow, C, -3)$ | $(B,\rightarrow,A,-1)$ | $(C,\rightarrow,B,-1)$| $(C,\rightarrow,D,-3)$|
+
|$(C, \rightarrow,D,-3)$ |$(A,\rightarrow,exit,6)$ |$(D, \rightarrow, exit,6)$ |$(B,\rightarrow,C,-3)$ | $(C,\leftarrow,B,-1)$ | $(A,\rightarrow,exit,6)$ | $(B,\rightarrow,C,-3)$| $(D,\rightarrow,exit,6)$|
+
|$(D, \leftarrow, exit, 6)$ | | |$(C,\leftarrow,B,-1)$ | $(B,\leftarrow,A,-1)$ | | $(C,\leftarrow,D,-3)$| |
+
| | | |$(B,\leftarrow,A,-1)$ | $(A,\leftarrow,exit,6)$ | | $(D,\leftarrow,exit,6)$| |
+
| | | |$(A,\leftarrow,exit,6)$ | | | | |*/
+
+
Úkoly:
+
* Jeví se svět deterministicky, nebo stochasticky?
+
* Jak byste odhadli přechodový model?
+
* Jak byste odhadli reward funkci?
+
* Pro neterminální stavy určete optimální policy.
+
+
> {{page>courses:b3b33kui:internal:quizzes#Odhad policy - řešení 2}}
+
+
+
/*
+
* prezentace z cvičení {{:courses:b3b33kui:cviceni:program_po_tydnech:policy_estimation_example.pdf | Policy Estimation Example}}
+
*/
+
+
+
===== Samostatná práce =====
+
Práce na úloze [[courses:b3b33kui:semestralni_ulohy:3_mdp:start|Markovské rozhodovací procesy]].
+
+
Zkuste rozmyslet (příp. i implementovat) testy [[courses:b3b33kui:semestralni_ulohy:testy:start|testů]] pro ověření správnosti specifikace.
+
===== Různé =====
+
* [[https://www.youtube.com/watch?v=uH-DNeTAYMM|Mystery game video]]
courses/b3b33kui/cviceni/program_po_tydnech/tyden_08.txt
· Last modified: 2024/04/04 14:55 by
xposik