A short variational proof of equivalence between policy gradients and soft Q learning

22 December 2017

Papers citing "A short variational proof of equivalence between policy gradients and soft Q learning"

1 / 1 papers shown

Title
Offline Regularised Reinforcement Learning for Large Language Models Alignment Pierre Harvey Richemond Yunhao Tang Daniel Guo Daniele Calandriello M. G. Azar ... Gil Shamir Rishabh Joshi Tianqi Liu Rémi Munos Bilal Piot OffRL 46 22 0 29 May 2024