Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates

29 September 2021

Papers citing "Dr Jekyll and Mr Hyde: the Strange Case of Off-Policy Policy Updates"

7 / 7 papers shown

Title
The Role of Baselines in Policy Gradient Optimization Jincheng Mei Wesley Chung Valentin Thomas Bo Dai Csaba Szepesvári Dale Schuurmans 24 15 0 16 Jan 2023
Non-Markovian policies occupancy measures Romain Laroche Rémi Tachet des Combes Jacob Buckman OffRL 29 1 0 27 May 2022
Policy Gradient Method For Robust Reinforcement Learning Yue Wang Shaofeng Zou 81 67 0 15 May 2022
Beyond the Policy Gradient Theorem for Efficient Policy Updates in Actor-Critic Algorithms Romain Laroche Rémi Tachet des Combes 38 2 0 15 Feb 2022
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch Shangtong Zhang Rémi Tachet des Combes Romain Laroche 22 10 0 04 Nov 2021
A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms Shangtong Zhang Romain Laroche H. V. Seijen Shimon Whiteson Rémi Tachet des Combes 33 15 0 02 Oct 2020
On Linear Convergence of Policy Gradient Methods for Finite MDPs Jalaj Bhandari Daniel Russo 55 59 0 21 Jul 2020