v1v2v3v4v5 (latest)

Leverage the Average: an Analysis of KL Regularization in RL

31 March 2020

Nino Vieillard

Olivier Pietquin

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "Leverage the Average: an Analysis of KL Regularization in RL"

32 / 32 papers shown

Symmetric Behavior Regularized Policy Optimization

254

06 Aug 2025

Dual Approximation Policy Optimization

Zhihan Xiong

Maryam Fazel

Lin Xiao

286

02 Oct 2024

q-exponential family for policy optimizationInternational Conference on Learning Representations (ICLR), 2024

Lingwei Zhu

Haseeb Shah

Zheng Chen

Yukie Nagai

Martha White

OffRL

561

14 Aug 2024

Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking

489

05 Mar 2024

Guaranteed Trust Region Optimization via Two-Phase KL Penalization

253

08 Dec 2023

Acceleration in Policy Optimization

356

18 Jun 2023

Towards Minimax Optimality of Model-based Robust Reinforcement LearningConference on Uncertainty in Artificial Intelligence (UAI), 2023

Pierre Clavier

E. L. Pennec

Matthieu Geist

479

10 Feb 2023

Generalized Munchausen Reinforcement Learning using Tsallis KL DivergenceNeural Information Processing Systems (NeurIPS), 2023

Lingwei Zhu

Zheng Chen

Takamitsu Matsubara

Martha White

312

27 Jan 2023

Extreme Q-Learning: MaxEnt RL without EntropyInternational Conference on Learning Representations (ICLR), 2023

325

114

05 Jan 2023

Latent State Marginalization as a Low-cost Approach for Improving ExplorationInternational Conference on Learning Representations (ICLR), 2022

Aaron Courville

352

03 Oct 2022

q

-Munchausen Reinforcement Learning

Zheng Chen

159

16 May 2022

Enforcing KL Regularization in General Tsallis Entropy Reinforcement Learning via Advantage Learning

Lingwei Zhu

Zheng Chen

E. Uchibe

Takamitsu Matsubara

130

16 May 2022

Lazy-MDPs: Towards Interpretable Reinforcement Learning by Learning When to Act

Alexis Jacq

Johan Ferret

Olivier Pietquin

Matthieu Geist

219

16 Mar 2022

Do You Need the Entropy Reward (in Practice)?

Haonan Yu

Haichao Zhang

Wei Xu

268

28 Jan 2022

Actor Loss of Soft Actor Critic Explained

Thibault Lahire

130

31 Dec 2021

Error Controlled Actor-CriticInformation Sciences (Inf. Sci.), 2021

125

06 Sep 2021

Implicitly Regularized RL with Implicit Q-Values

Nino Vieillard

Olivier Pietquin

234

16 Aug 2021

Cautious Policy Programming: Exploiting KL Regularization in Monotonic Policy Improvement for Reinforcement Learning

209

13 Jul 2021

Bayesian Bellman OperatorsNeural Information Processing Systems (NeurIPS), 2021

260

09 Jun 2021

Muesli: Combining Improvements in Policy OptimizationInternational Conference on Machine Learning (ICML), 2021

Ivo Danihelka

David Silver

314

13 Apr 2021

Co-Adaptation of Algorithmic and Implementational Innovations in Inference-based Deep Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2021

Hiroki Furuta

414

31 Mar 2021

Near Optimal Policy Optimization via REPSNeural Information Processing Systems (NeurIPS), 2021

259

17 Mar 2021

Maximum Entropy RL (Provably) Solves Some Robust RL ProblemsInternational Conference on Learning Representations (ICLR), 2021

Benjamin Eysenbach

Sergey Levine

OOD

342

241

10 Mar 2021

Improved Regret Bound and Experience Replay in Regularized Policy IterationInternational Conference on Machine Learning (ICML), 2021

158

25 Feb 2021

Optimization Issues in KL-Constrained Approximate Policy Iteration

142

11 Feb 2021

Adversarially Guided Actor-CriticInternational Conference on Learning Representations (ICLR), 2021

Olivier Pietquin

228

08 Feb 2021

Reinforcement Learning Control of a Biomechanical Model of the Upper ExtremityScientific Reports (Sci Rep), 2020

213

13 Nov 2020

Finding the Near Optimal Policy via Adaptive Reduced Regularization in MDPs

Wenhao Yang

Xiang Li

Guangzeng Xie

Zhihua Zhang

232

31 Oct 2020

497

21 Oct 2020

Learning Off-Policy with Online Planning

653

23 Aug 2020

Munchausen Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2020

Nino Vieillard

Olivier Pietquin

Matthieu Geist

OffRL

272

107

28 Jul 2020

Discount Factor as a Regularizer in Reinforcement Learning

277

04 Jul 2020