A unified view of entropy-regularized Markov decision processes

22 May 2017

Anders Jonsson

Papers citing "A unified view of entropy-regularized Markov decision processes"

27 / 77 papers shown

Title
Logistic Q-Learning Joan Bas-Serrano Sebastian Curi Andreas Krause Gergely Neu 14 40 0 21 Oct 2020
Revisiting Design Choices in Proximal Policy Optimization Chloe Ching-Yun Hsu Celestine Mendler-Dünner Moritz Hardt 25 53 0 23 Sep 2020
Constrained Markov Decision Processes via Backward Value Functions Harsh Satija P. Amortila Joelle Pineau 30 51 0 26 Aug 2020
Monte-Carlo Tree Search as Regularized Policy Optimization Jean-Bastien Grill Florent Altché Yunhao Tang Thomas Hubert Michal Valko Ioannis Antonoglou Rémi Munos 27 73 0 24 Jul 2020
On Linear Convergence of Policy Gradient Methods for Finite MDPs Jalaj Bhandari Daniel Russo 59 59 0 21 Jul 2020
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity Kaipeng Zhang Sham Kakade Tamer Bacsar Lin F. Yang 47 120 0 15 Jul 2020
Reparameterized Variational Divergence Minimization for Stable Imitation Dilip Arumugam Debadeepta Dey Alekh Agarwal Asli Celikyilmaz E. Nouri W. Dolan 33 3 0 18 Jun 2020
Parameterized MDPs and Reinforcement Learning Problems -- A Maximum Entropy Principle Based Framework Amber Srivastava S. Salapaka 19 11 0 17 Jun 2020
Mirror Descent Policy Optimization Manan Tomar Lior Shani Yonathan Efroni Mohammad Ghavamzadeh 25 83 0 20 May 2020
Stable Policy Optimization via Off-Policy Divergence Regularization Ahmed Touati Amy Zhang Joelle Pineau Pascal Vincent OffRL 30 17 0 09 Mar 2020
Reinforcement Learning via Fenchel-Rockafellar Duality Ofir Nachum Bo Dai OffRL 16 118 0 07 Jan 2020
On Connections between Constrained Optimization and Reinforcement Learning Nino Vieillard Olivier Pietquin M. Geist 6 13 0 18 Oct 2019
On the Theory of Policy Gradient Methods: Optimality, Approximation, and Distribution Shift Alekh Agarwal Sham Kakade J. Lee G. Mahajan 13 316 0 01 Aug 2019
A Unified Bellman Optimality Principle Combining Reward Maximization and Empowerment Felix Leibfried Sergio Pascual-Diaz Jordi Grau-Moya 25 27 0 26 Jul 2019
Neural Proximal/Trust Region Policy Optimization Attains Globally Optimal Policy Boyi Liu Qi Cai Zhuoran Yang Zhaoran Wang 30 108 0 25 Jun 2019
Divergence-Based Motivation for Online EM and Combining Hidden Variable Models Ehsan Amid Manfred K. Warmuth 13 4 0 11 Feb 2019
Provably Efficient Maximum Entropy Exploration Elad Hazan Sham Kakade Karan Singh A. V. Soest 36 293 0 06 Dec 2018
A Constrained Randomized Shortest-Paths Framework for Optimal Exploration B. Lebichot Guillaume Guex Ilkka Kivimäki M. Saerens 13 4 0 12 Jul 2018
PAC-Bayes Control: Learning Policies that Provably Generalize to Novel Environments Anirudha Majumdar M. Goldstein Anoopkumar Sonar 23 18 0 11 Jun 2018
Equivalence Between Wasserstein and Value-Aware Loss for Model-based Reinforcement Learning Kavosh Asadi Evan Cater Dipendra Kumar Misra Michael L. Littman OffRL 18 11 0 01 Jun 2018
Lipschitz Continuity in Model-based Reinforcement Learning Kavosh Asadi Dipendra Kumar Misra Michael L. Littman KELM 43 150 0 19 Apr 2018
Path Consistency Learning in Tsallis Entropy Regularized MDPs Ofir Nachum Yinlam Chow Mohammad Ghavamzadeh 23 45 0 10 Feb 2018
Expected Policy Gradients for Reinforcement Learning K. Ciosek Shimon Whiteson 50 51 0 10 Jan 2018
SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation Bo Dai Albert Eaton Shaw Lihong Li Lin Xiao Niao He Zhen Liu Jianshu Chen Le Song 31 25 0 29 Dec 2017
Boosting the Actor with Dual Critic Bo Dai Albert Eaton Shaw Niao He Lihong Li Le Song 35 46 0 29 Dec 2017
A short variational proof of equivalence between policy gradients and soft Q learning Pierre Harvey Richemond B. Maginnis 16 5 0 22 Dec 2017
An Alternative Softmax Operator for Reinforcement Learning Kavosh Asadi Michael L. Littman 20 10 0 16 Dec 2016