====== 09 Reinforcement III ====== * Hodnoty stavů při náhodné procházce * Aproximace minimalizující součet čtverců chyb (LSQ) * Učení aproximační Q-funkce * Diskuse k mid-term písemce (pokud budou dotazy) ===== Kvíz I - cena uzlů náhodné procházky ===== * tradiční kvíz, tentokrát na výpočet hodnot stavů při náhodné procházce * bodovaný, bonusových 0.5bodu * řešení odevzdat do BRUTE do úlohy **lab09quiz**, do půlnoci dne, kdy běží dané cvičení * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst * správné řešení prodiskutujeme na příštím cvičení ==== Zadání kvíz I ==== * p. 101, St 12:45: {{ courses:b3b33kui:cviceni:program_po_tydnech:kviz_nahodna_prochazka_101.pdf|Nahodna prochazka Cviceni 101}} * p. 102, St 14:30: {{ courses:b3b33kui:cviceni:program_po_tydnech:kviz_nahodna_prochazka_102.pdf|Nahodna prochazka Cviceni 102}} * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_cviceni_103.pdf |Nahodna prochazka Cviceni 103}} * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:random_walk_cviceni_105.pdf |Nahodna prochazka Cviceni 105}} ===== Kvíz II - výpočet pomocí aproximace ===== * on-line výuka, vysvětlení na příkladech * příklad I: aproximace metodou nejmenších čtverců * příklad II: aproximativní Q-learning * bez bodového hodnocení * prezerntace {{ :courses:b3b33kui:cviceni:program_po_tydnech:learning_by_approximation.pdf | Learning_by_approximation.pdf}} ==== ==== {{page>courses:b3b33kui:internal:quizzes#Cena uzlů náhodné procházky}} {{page>courses:b3b33kui:internal:quizzes#Nejmenší čtverce}} {{page>courses:b3b33kui:internal:quizzes#Aproximativní Q-learning}}