v1v2v3v4 (latest)

Learn Your Reference Model for Real Good Alignment

15 April 2024

ArXiv (abs)PDF HTML HuggingFace (88 upvotes)Github (29295★)

Papers citing "Learn Your Reference Model for Real Good Alignment"

50 / 89 papers shown

Humanline: Online Alignment as Perceptual Loss

131

30 Mar 2026

Merging without Forgetting: Continual Fusion of Task-Specific Models via Optimal Transport

...

378

24 Nov 2025

AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment

Ruibo Deng

Duanyu Feng

Wenqiang Lei

240

12 Nov 2025

Learning to Reason Efficiently with Discounted Reinforcement Learning

182

27 Oct 2025

Reinforced Preference Optimization for Recommendation

254

14 Oct 2025

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

191

14 Oct 2025

Theoretical Tensions in RLHF: Reconciling Empirical Success with Inconsistencies in Social Choice Theory

264

14 Jun 2025

Reinforcement Learning Teachers of Test Time Scaling

466

10 Jun 2025

Explicit Preference Optimization: No Need for an Implicit Reward Model

210

09 Jun 2025

Doubly Robust Alignment for Large Language Models

360

01 Jun 2025

Rethinking Direct Preference Optimization in Diffusion Models

1.1K

24 May 2025

NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning

326

21 May 2025

On the Interplay of Human-AI Alignment,Fairness, and Performance Trade-offs in Medical ImagingInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

Haozhe Luo

Ziyu Zhou

Zixin Shu

Aurélie Pahud de Mortanges

Robert Berke

Mauricio Reyes

273

15 May 2025

Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach

579

04 May 2025

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

434

22 Apr 2025

Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning

722

03 Apr 2025

Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem ProvingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

438

12 Mar 2025

LiPO: Listwise Preference Optimization through Learning-to-RankNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

...

711

28 Jan 2025

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

439

22 Jan 2025

How to Merge Your Multimodal Models Over Time?Computer Vision and Pattern Recognition (CVPR), 2024

Sebastian Dziadzio

Vishaal Udandarao

Karsten Roth

Christian Schroeder de Witt

530

09 Dec 2024

Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

...

763

226

15 Nov 2024

Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization

341

07 Nov 2024

RainbowPO: A Unified Framework for Combining Improvements in Preference OptimizationInternational Conference on Learning Representations (ICLR), 2024

Sambit Sahu

446

05 Oct 2024

Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review

367

26 Sep 2024

Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

Cheolhun Jang

375

26 Sep 2024

Towards a Unified View of Preference Learning for Large Language Models: A Survey

...

Houfeng Wang

Zhifang Sui

Peiyi Wang

Baobao Chang

532

04 Sep 2024

Understanding Reference Policies in Direct Preference Optimization

Yixin Liu

Pengfei Liu

Arman Cohan

406

18 Jul 2024

New Desiderata for Direct Preference Optimization

Xiangkun Hu

Tong He

David Wipf

239

12 Jul 2024

LIONs: An Empirically Optimized Approach to Align Language Models

Zhou Yu

286

09 Jul 2024

Aligning Diffusion Models with Noise-Conditioned Perception

Alexander Gambashidze

Anton Kulikov

Yuriy Sosnin

Ilya Makarov

375

25 Jun 2024

WARP: On the Benefits of Weight Averaged Rewarded Policies

398

24 Jun 2024

Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence

Jiazheng Li

Yulan He

343

16 Jun 2024

Online Joint Fine-tuning of Multi-Agent Flows

Paul Mineiro

418

06 Jun 2024

Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms

Chelsea Finn

405

114

05 Jun 2024

MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures

Graham Neubig

Yang You

ELM

238

03 Jun 2024

Robust Preference Optimization through Reward Model Distillation

528

29 May 2024

On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization

426

26 May 2024

SimPO: Simple Preference Optimization with a Reference-Free RewardNeural Information Processing Systems (NeurIPS), 2024

Yu Meng

Mengzhou Xia

Danqi Chen

700

913

23 May 2024

LIRE: listwise reward enhancement for preference alignment

Lei Zhang

249

22 May 2024

Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators

540

713

06 Apr 2024

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Ahmed Hassan Awadallah

Tengyang Xie

573

171

04 Apr 2024

Disentangling Length from Quality in Direct Preference Optimization

Stefano Ermon

285

193

28 Mar 2024

EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models

...

Xuanjing Huang

269

18 Mar 2024

Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive

566

231

20 Feb 2024

Generalized Preference Optimization: A Unified Approach to Offline Alignment

Daniele Calandriello

Pierre Harvey Richemond

Michal Valko

Bernardo Avila-Pires

Bilal Piot

364

152

08 Feb 2024

KTO: Model Alignment as Prospect Theoretic Optimization

Kawin Ethayarajh

Winnie Xu

Niklas Muennighoff

Dan Jurafsky

Douwe Kiela

1.2K

933

02 Feb 2024

Secrets of RLHF in Large Language Models Part II: Reward Modeling

...

Xipeng Qiu

Xuanjing Huang

Zuxuan Wu

Yuanyuan Jiang

ALM

426

155

11 Jan 2024

Nash Learning from Human FeedbackInternational Conference on Machine Learning (ICML), 2023

Daniele Calandriello

...

Nikola Momchev

Olivier Bachem

D. Mankowitz

Doina Precup

Bilal Piot

753

206

01 Dec 2023

GPQA: A Graduate-Level Google-Proof Q&A Benchmark

589

2,282

20 Nov 2023

A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models EasilyNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

538

256

14 Nov 2023