Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

16 April 2024

Chao Yu

Papers citing "Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study"

2 / 102 papers shown

Title
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 273 1,561 0 18 Sep 2019
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 204 607 0 03 Sep 2019