Načítá se...
Entropic Regularization of Markov Decision Processes
An optimal feedback controller for a given Markov decision process (MDP) can in principle be synthesized by value or policy iteration. However, if the system dynamics and the reward function are unknown, a learning agent must discover an optimal controller via direct interaction with the environment...
Uloženo v:
| Vydáno v: | Entropy (Basel) |
|---|---|
| Hlavní autoři: | , |
| Médium: | Artigo |
| Jazyk: | Inglês |
| Vydáno: |
MDPI
2019
|
| Témata: | |
| On-line přístup: | https://ncbi.nlm.nih.gov/pmc/articles/PMC7515171/ https://ncbi.nlm.nih.gov/pubmed/33267388 https://ncbi.nlm.nih.govhttp://dx.doi.org/10.3390/e21070674 |
| Tagy: |
Přidat tag
Žádné tagy, Buďte první, kdo otaguje tento záznam!
|