Ładuje się......
Adaptive Baseline Enhances EM-Based Policy Search: Validation in a View-Based Positioning Task of a Smartphone Balancer
EM-based policy search methods estimate a lower bound of the expected return from the histories of episodes and iteratively update the policy parameters using the maximum of a lower bound of expected return, which makes gradient calculation and learning rate tuning unnecessary. Previous algorithms l...
Zapisane w:
| Wydane w: | Front Neurorobot |
|---|---|
| Główni autorzy: | , , |
| Format: | Artigo |
| Język: | Inglês |
| Wydane: |
Frontiers Media S.A.
2017
|
| Hasła przedmiotowe: | |
| Dostęp online: | https://ncbi.nlm.nih.gov/pmc/articles/PMC5256123/ https://ncbi.nlm.nih.gov/pubmed/28167910 https://ncbi.nlm.nih.govhttp://dx.doi.org/10.3389/fnbot.2017.00001 |
| Etykiety: |
Dodaj etykietę
Nie ma etykietki, Dołącz pierwszą etykiete!
|