Načítá se...

Entropic Regularization of Markov Decision Processes

An optimal feedback controller for a given Markov decision process (MDP) can in principle be synthesized by value or policy iteration. However, if the system dynamics and the reward function are unknown, a learning agent must discover an optimal controller via direct interaction with the environment...

Celý popis

Uloženo v:

Podrobná bibliografie
Vydáno v:	Entropy (Basel)
Hlavní autoři:	Belousov, Boris, Peters, Jan
Médium:	Artigo
Jazyk:	Inglês
Vydáno:	MDPI 2019
Témata:	Article
On-line přístup:	https://ncbi.nlm.nih.gov/pmc/articles/PMC7515171/ https://ncbi.nlm.nih.gov/pubmed/33267388 https://ncbi.nlm.nih.govhttp://dx.doi.org/10.3390/e21070674
Tagy:	Přidat tag Žádné tagy, Buďte první, kdo otaguje tento záznam!

Entropic Regularization of Markov Decision Processes

Podobné jednotky