Bridging the Gap Between Value and Policy Based Reinforcement Learning

28 February 2017

Papers citing "Bridging the Gap Between Value and Policy Based Reinforcement Learning"

48 / 98 papers shown

Title
Characterizing the Gap Between Actor-Critic and Policy Gradient Junfeng Wen Saurabh Kumar Ramki Gummadi Dale Schuurmans 31 15 0 13 Jun 2021
An Entropy Regularization Free Mechanism for Policy-based Reinforcement Learning Changnan Xiao Haosen Shi Jiajun Fan Shihong Deng 23 5 0 01 Jun 2021
Near Optimal Policy Optimization via REPS Aldo Pacchiano Jonathan Lee Peter L. Bartlett Ofir Nachum 23 3 0 17 Mar 2021
Offline Reinforcement Learning with Fisher Divergence Critic Regularization Ilya Kostrikov Jonathan Tompson Rob Fergus Ofir Nachum OffRL 29 300 0 14 Mar 2021
Maximum Entropy RL (Provably) Solves Some Robust RL Problems Benjamin Eysenbach Sergey Levine OOD 50 175 0 10 Mar 2021
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality Tengyu Xu Zhuoran Yang Zhaoran Wang Yingbin Liang OffRL 47 24 0 23 Feb 2021
A Tutorial on Sparse Gaussian Processes and Variational Inference Felix Leibfried Vincent Dutordoir S. T. John N. Durrande GP 42 49 0 27 Dec 2020
Behavior Priors for Efficient Reinforcement Learning Dhruva Tirumala Alexandre Galashov Hyeonwoo Noh Leonard Hasenclever Razvan Pascanu ... Guillaume Desjardins Wojciech M. Czarnecki Arun Ahuja Yee Whye Teh N. Heess 37 39 0 27 Oct 2020
Global optimality of softmax policy gradient with single hidden layer neural networks in the mean-field regime Andrea Agazzi Jianfeng Lu 13 15 0 22 Oct 2020
Control as Hybrid Inference Alexander Tschantz Beren Millidge A. Seth Christopher L. Buckley 19 9 0 11 Jul 2020
Consensus Multi-Agent Reinforcement Learning for Volt-VAR Control in Power Distribution Networks Yuanqi Gao Wei Wang N. Yu 15 118 0 06 Jul 2020
Parameterized MDPs and Reinforcement Learning Problems -- A Maximum Entropy Principle Based Framework Amber Srivastava S. Salapaka 16 11 0 17 Jun 2020
Self-Imitation Learning via Generalized Lower Bound Q-learning Yunhao Tang SSL 33 24 0 12 Jun 2020
Variational Model-based Policy Optimization Yinlam Chow Brandon Cui Moonkyung Ryu Mohammad Ghavamzadeh OffRL 9 12 0 09 Jun 2020
Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory Yufeng Zhang Qi Cai Zhuoran Yang Yongxin Chen Zhaoran Wang OOD MLT 141 11 0 08 Jun 2020
Mirror Descent Policy Optimization Manan Tomar Lior Shani Yonathan Efroni Mohammad Ghavamzadeh 22 83 0 20 May 2020
On the Global Convergence Rates of Softmax Policy Gradient Methods Jincheng Mei Chenjun Xiao Csaba Szepesvári Dale Schuurmans 47 276 0 13 May 2020
Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors Jingliang Duan Yang Guan Shengbo Eben Li Yangang Ren B. Cheng OffRL 22 174 0 09 Jan 2020
Direct and indirect reinforcement learning Yang Guan Shengbo Eben Li Jingliang Duan Jie Li Yangang Ren Qi Sun B. Cheng OffRL 38 34 0 23 Dec 2019
A Unified Bellman Optimality Principle Combining Reward Maximization and Empowerment Felix Leibfried Sergio Pascual-Diaz Jordi Grau-Moya 25 27 0 26 Jul 2019
Deep Reinforcement Learning for Cyber Security Thanh Thi Nguyen Vijay Janapa Reddi OffRL AI4CE 10 313 0 13 Jun 2019
Advantage Amplification in Slowly Evolving Latent-State Environments Martin Mladenov Ofer Meshi Jayden Ooi Dale Schuurmans Craig Boutilier OffRL 15 9 0 29 May 2019
A Kernel Loss for Solving the Bellman Equation Yihao Feng Lihong Li Qiang Liu 30 70 0 25 May 2019
A Regularized Opponent Model with Maximum Entropy Objective Zheng Tian Ying Wen Zhichen Gong Faiz Punakkath Shihao Zou Jun Wang 30 31 0 17 May 2019
P3O: Policy-on Policy-off Policy Optimization Rasool Fakoor Pratik Chaudhari Alex Smola OffRL 29 51 0 05 May 2019
Learning to Walk via Deep Reinforcement Learning Tuomas Haarnoja Sehoon Ha Aurick Zhou Jie Tan George Tucker Sergey Levine 54 433 0 26 Dec 2018
Learning Montezuma's Revenge from a Single Demonstration Tim Salimans Richard J. Chen 42 136 0 08 Dec 2018
Relative Entropy Regularized Policy Iteration A. Abdolmaleki Jost Tobias Springenberg Jonas Degrave Steven Bohez Yuval Tassa Dan Belov N. Heess Martin Riedmiller 27 72 0 05 Dec 2018
Equivalence Between Wasserstein and Value-Aware Loss for Model-based Reinforcement Learning Kavosh Asadi Evan Cater Dipendra Kumar Misra Michael L. Littman OffRL 13 11 0 01 Jun 2018
Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition Justin Fu Avi Singh Dibya Ghosh Larry Yang Sergey Levine BDL 14 125 0 29 May 2018
Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review Sergey Levine AI4CE BDL 30 661 0 02 May 2018
Toward Diverse Text Generation with Inverse Reinforcement Learning Zhan Shi Xinchi Chen Xipeng Qiu Xuanjing Huang 14 104 0 30 Apr 2018
Lipschitz Continuity in Model-based Reinforcement Learning Kavosh Asadi Dipendra Kumar Misra Michael L. Littman KELM 37 150 0 19 Apr 2018
An Adaptive Clipping Approach for Proximal Policy Optimization Gang Chen Yiming Peng Mengjie Zhang 14 22 0 17 Apr 2018
Composable Deep Reinforcement Learning for Robotic Manipulation Tuomas Haarnoja Vitchyr H. Pong Aurick Zhou Murtaza Dalal Pieter Abbeel Sergey Levine 30 230 0 19 Mar 2018
Model-Based Value Estimation for Efficient Model-Free Reinforcement Learning Vladimir Feinberg Alvin Wan Ion Stoica Michael I. Jordan Joseph E. Gonzalez Sergey Levine OffRL 13 315 0 28 Feb 2018
Evolved Policy Gradients Rein Houthooft Richard Y. Chen Phillip Isola Bradly C. Stadie Filip Wolski Jonathan Ho Pieter Abbeel 49 227 0 13 Feb 2018
Path Consistency Learning in Tsallis Entropy Regularized MDPs Ofir Nachum Yinlam Chow Mohammad Ghavamzadeh 18 45 0 10 Feb 2018
Expected Policy Gradients for Reinforcement Learning K. Ciosek Shimon Whiteson 50 51 0 10 Jan 2018
SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation Bo Dai Albert Eaton Shaw Lihong Li Lin Xiao Niao He Zhen Liu Jianshu Chen Le Song 31 25 0 29 Dec 2017
Boosting the Actor with Dual Critic Bo Dai Albert Eaton Shaw Niao He Lihong Li Le Song 32 46 0 29 Dec 2017
A short variational proof of equivalence between policy gradients and soft Q learning Pierre Harvey Richemond B. Maginnis 16 5 0 22 Dec 2017
A Brief Survey of Deep Reinforcement Learning Kai Arulkumaran M. Deisenroth Miles Brundage Anil Anthony Bharath OffRL 59 2,776 0 19 Aug 2017
An Information-Theoretic Optimality Principle for Deep Reinforcement Learning Felix Leibfried Jordi Grau-Moya Haitham Bou-Ammar 35 24 0 06 Aug 2017
Distral: Robust Multitask Reinforcement Learning Yee Whye Teh V. Bapst Wojciech M. Czarnecki John Quan J. Kirkpatrick R. Hadsell N. Heess Razvan Pascanu 44 544 0 13 Jul 2017
Equivalence Between Policy Gradients and Soft Q-Learning John Schulman Xi Chen Pieter Abbeel OffRL 29 342 0 21 Apr 2017
Deep Reinforcement Learning: An Overview Yuxi Li OffRL VLM 104 1,503 0 25 Jan 2017
An Alternative Softmax Operator for Reinforcement Learning Kavosh Asadi Michael L. Littman 20 10 0 16 Dec 2016