A carregar...

Entropic Regularization of Markov Decision Processes

An optimal feedback controller for a given Markov decision process (MDP) can in principle be synthesized by value or policy iteration. However, if the system dynamics and the reward function are unknown, a learning agent must discover an optimal controller via direct interaction with the environment...

ver descrição completa

Na minha lista:
Detalhes bibliográficos
Publicado no:Entropy (Basel)
Main Authors: Belousov, Boris, Peters, Jan
Formato: Artigo
Idioma:Inglês
Publicado em: MDPI 2019
Assuntos:
Acesso em linha:https://ncbi.nlm.nih.gov/pmc/articles/PMC7515171/
https://ncbi.nlm.nih.gov/pubmed/33267388
https://ncbi.nlm.nih.govhttp://dx.doi.org/10.3390/e21070674
Tags: Adicionar Tag
Sem tags, seja o primeiro a adicionar uma tag!