Ładuje się......

Adaptive Baseline Enhances EM-Based Policy Search: Validation in a View-Based Positioning Task of a Smartphone Balancer

EM-based policy search methods estimate a lower bound of the expected return from the histories of episodes and iteratively update the policy parameters using the maximum of a lower bound of expected return, which makes gradient calculation and learning rate tuning unnecessary. Previous algorithms l...

Szczegółowa specyfikacja

Zapisane w:
Opis bibliograficzny
Wydane w:Front Neurorobot
Główni autorzy: Wang, Jiexin, Uchibe, Eiji, Doya, Kenji
Format: Artigo
Język:Inglês
Wydane: Frontiers Media S.A. 2017
Hasła przedmiotowe:
Dostęp online:https://ncbi.nlm.nih.gov/pmc/articles/PMC5256123/
https://ncbi.nlm.nih.gov/pubmed/28167910
https://ncbi.nlm.nih.govhttp://dx.doi.org/10.3389/fnbot.2017.00001
Etykiety: Dodaj etykietę
Nie ma etykietki, Dołącz pierwszą etykiete!