Jak se pořád neopakovat. Už jsme našli cestu, ale možná někde vedle existuje i lepší.
Po tomto cvičení student
Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r')$.
| Episoda 1 | Episoda 2 | Episoda 3 | Episoda 4 |
|---|---|---|---|
| $(B, \rightarrow,C,-1)$ | $(B, \leftarrow,A,-1)$ | $(C,\rightarrow,D,-1)$ | $(C,\leftarrow,B,-1)$ |
| $(C, \rightarrow,D,-1)$ | $(A,\rightarrow,exit,10)$ | $(D, \rightarrow, exit,6)$ | $(B,\rightarrow,C,-1)$ |
| $(D, \leftarrow, exit, 6)$ | $(C,\leftarrow,B,-1)$ | ||
| $(B,\leftarrow,A,-1)$ | |||
| $(A,\leftarrow,exit,10)$ |
Určete:
Máme neznámý kostičkový svět, neznámé velikosti a struktury. Agent se pohybuje neznámýmí směry, s neznámými parametry. Agent vyzkoušel několik trénovacích epizod, zápis je níže v tabulce. Každý řádek v tabulce je n-tice $(s, a, s', r)$.
| Episoda 1 | Episoda 2 | Episoda 3 | Episoda 4 |
|---|---|---|---|
| $(B, \rightarrow,C,-3)$ | $(B, \leftarrow,A,-1)$ | $(C,\rightarrow,D,-3)$ | $(C,\leftarrow,B,-1)$ |
| $(C, \rightarrow,D,-3)$ | $(A,\rightarrow,exit,6)$ | $(D, \rightarrow, exit,6)$ | $(B,\rightarrow,C,-3)$ |
| $(D, \leftarrow, exit, 6)$ | $(C,\leftarrow,B,-1)$ | ||
| $(B,\leftarrow,A,-1)$ | |||
| $(A,\leftarrow,exit,6)$ |
Určete:
Reinforecement learning je nyní velmi aktivní oblastí, podporovanou také rychlým pokrokem v oblasti učení hlubokých neuronových sítí. Pár odkazů pro další ínspiraci