Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs

Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs

18 March 2025

Nicolas Le Roux

Marc G. Bellemare

Jonathan Lebensold

Arnaud Bergeron

Alex Fréchette

Carolyne Pelletier

Eric Thibodeau-Laufer

Papers citing "Tapered Off-Policy REINFORCE: Stable and efficient reinforcement learning for LLMs"

Title
No papers