====== 09 Reinforcement III ====== * Aproximace minimalizující součet čtverců chyb (LSQ) * Učení aproximační Q-funkce * Diskuse k mid-term písemce (pokud budou dotazy) ===== Kvíz I ===== * tradiční kvíz, tentokrát na výpočet Q hodnot z trénovacích epizod pomocí metody časových diferencí /* * bodovaný, bonusových 0.5bodu * řešení odevzdat do BRUTE do úlohy **lab08quiz**, do půlnoci dne, kdy běží dané cvičení * formát: textový soubor, fotka řešení na papíře, pdf - co Vám nejlépe vyhovuje a dokážeme to přečíst * správné řešení prodiskutujeme na příštím cvičení */ /* ==== Zadání kvíz I ==== * p. 101, St 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210407-101308_qlearning_cv101.pdf | cv101}} * p. 102, St 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:20210407-101412_qlearning_cv102.pdf | cv102}} * p. 103, Čt 12:45: {{ :courses:b3b33kui:cviceni:program_po_tydnech:qlearning_p103_cz.pdf |cv103}} * p. 104, Čt 14:30: {{ :courses:b3b33kui:cviceni:program_po_tydnech:qlearning_104.pdf |cv104}} * p. 105, Pá 9:15: {{ :courses:b3b33kui:cviceni:program_po_tydnech:qlearning_p105_cz.pdf |cv105}} */ ===== Kvíz II - výpočet pomocí aproximace ===== * vysvětlení na příkladech * příklad I: aproximace metodou nejmenších čtverců * příklad II: aproximativní Q-learning * bez bodového hodnocení /* * prezentace {{ :courses:b3b33kui:cviceni:program_po_tydnech:learning_by_approximation.pdf | Learning_by_approximation.pdf}} */ ==== ==== /*{{page>courses:b3b33kui:internal:quizzes#Cena uzlů náhodné procházky}}*/ {{page>courses:b3b33kui:internal:quizzes#Nejmenší čtverce}} {{page>courses:b3b33kui:internal:quizzes#Aproximativní Q-learning}}