Efficient iterative policy optimization

28 December 2016

Nicolas Le Roux

ArXiv (abs)PDF HTML

Papers citing "Efficient iterative policy optimization"

6 / 6 papers shown

Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved)

Chongli Qin

Jost Tobias Springenberg

OffRL

215

17 Jul 2025

Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs

Eric Thibodeau-Laufer

Sándor Toth

Sam Work

OffRL

503

18 Mar 2025

Boosted Off-Policy LearningInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022

304

01 Aug 2022

An operator view of policy gradient methods

Dibya Ghosh

Marlos C. Machado

Nicolas Le Roux

OffRL

289

19 Jun 2020

Deployment-Efficient Reinforcement Learning via Model-Based Offline Optimization

Hiroki Furuta

309

162

05 Jun 2020

Maximum a Posteriori Policy Optimisation

A. Abdolmaleki

Jost Tobias Springenberg

Yuval Tassa

Rémi Munos

N. Heess

Martin Riedmiller

202

530

14 Jun 2018