Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing

8 June 2024

Bowen Zhou

Papers citing "Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing"

2 / 2 papers shown

Title
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization Navonil Majumder Chia-Yu Hung Deepanway Ghosal Wei-Ning Hsu Rada Mihalcea Soujanya Poria 31 51 0 15 Apr 2024
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 273 1,561 0 18 Sep 2019