Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
courses:b3b33kui:cviceni:program_po_tydnech:tyden_07 [2024/04/04 12:39]
kostkja2 [Zadání]
courses:b3b33kui:cviceni:program_po_tydnech:tyden_07 [2024/05/10 09:06] (current)
kostkja2 [Value Iteration]
Line 43: Line 43:
   * akce: {$\leftarrow,​ \rightarrow,​\uparrow,​\downarrow$}   * akce: {$\leftarrow,​ \rightarrow,​\uparrow,​\downarrow$}
   * $\gamma = 0.9$   * $\gamma = 0.9$
-  * $V_{k+1}(s) \leftarrow r(s) + \gamma \rm{max}_a$$\sum_{s'​}p(s'​|s,​a)V_k(s'​)$+  * $V_{k+1}(s) \leftarrow r(s) + \gamma \rm{max}_a\it{\sum_{s'​}p(s'​|s,​a)V_k(s'​)}$
 </​WRAP>​ </​WRAP>​
 </​WRAP>​ </​WRAP>​
Line 50: Line 50:
  
 ==== Value Iteration ==== ==== Value Iteration ====
-  * iterovat: aktualizovat hodnoty $V(s)$ dokud se mění ​více než zadané ​$\epsilon$+  * iterovat: aktualizovat hodnoty $V(s)$ dokud se významně ​mění ​(více než $\epsilon ​\cdot (1-\gamma)/​\gamma$)
   * určit nejlepší strategii $\pi(s) = \rm{argmax}_a V(s)$   * určit nejlepší strategii $\pi(s) = \rm{argmax}_a V(s)$
  
courses/b3b33kui/cviceni/program_po_tydnech/tyden_07.1712227182.txt.gz · Last modified: 2024/04/04 12:39 by kostkja2