v1v2 (latest)

ORPO: Monolithic Preference Optimization without Reference Model

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2024

12 March 2024

Papers citing "ORPO: Monolithic Preference Optimization without Reference Model"

2 / 252 papers shown

Title
Noise Contrastive Alignment of Language Models with Explicit Rewards Huayu Chen Guande He Lifan Yuan Ganqu Cui Hang Su Jun Zhu 266 77 0 08 Feb 2024
Let Me Teach You: Pedagogical Foundations of Feedback for Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Beatriz Borges Niket Tandon Tanja Käser Antoine Bosselut 416 8 0 01 Jul 2023