v1v2v3v4 (latest)

Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game

Annual Meeting of the Association for Computational Linguistics (ACL), 2023

14 November 2023

ArXiv (abs)PDF HTML Github (54★)

Papers citing "Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game"

24 / 24 papers shown

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Bowen Ye

Bin Zhang

Hang Zhao

238

17 Nov 2025

SSFO: Self-Supervised Faithfulness Optimization for Retrieval-Augmented Generation

237

24 Aug 2025

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following

452

11 Jun 2025

A Survey on Progress in LLM Alignment from the Perspective of Reward Design

479

05 May 2025

Energy-Based Reward Models for Robust Language Model Alignment

Anamika Lochab

Ruqi Zhang

1.1K

17 Apr 2025

Stackelberg Self-Annotation: A Robust Approach to Data-Efficient LLM Alignment

501

25 Feb 2025

RLHF in an SFT Way: From Optimal Solution to Reward-Weighted Alignment

364

16 Feb 2025

Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning

Hao Sun

M. Schaar

499

28 Jan 2025

Holistic Utility Preference Learning for Listwise Alignment

Jiacong Zhou

Xianyun Wang

Jun Yu

441

17 Oct 2024

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference OptimizationConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Tong Zhang

469

05 Sep 2024

Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates

597

23 Aug 2024

RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold

Amrith Rajagopal Setlur

574

114

20 Jun 2024

A Survey on Human Preference Learning for Large Language Models

Ruili Jiang

Kehai Chen

Xuefeng Bai

Zhixuan He

Juntao Li

Muyun Yang

Tiejun Zhao

Liqiang Nie

Min Zhang

364

17 Jun 2024

Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMsNeural Information Processing Systems (NeurIPS), 2024

Rui Yang

Ruomeng Ding

Yong Lin

Huan Zhang

Tong Zhang

329

121

14 Jun 2024

SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling

Junge Zhang

Kaiqi Huang

227

21 May 2024

Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation

386

25 Apr 2024

Self-playing Adversarial Language Game Enhances LLM Reasoning

Xiaolong Li

587

16 Apr 2024

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Ahmed Hassan Awadallah

Tengyang Xie

573

171

04 Apr 2024

Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards

Wei Shen

Yang Liu

268

12 Mar 2024

Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation

Xiaoying Zhang

Jean-François Ton

Wei Shen

Hongning Wang

Yang Liu

197

08 Mar 2024

Accelerating Greedy Coordinate Gradient via Probe Sampling

384

02 Mar 2024

Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts

Mingyuan Zhou

325

12 Feb 2024

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language ModelsInternational Conference on Machine Learning (ICML), 2024

Quanquan Gu

761

517

02 Jan 2024

On Diversified Preferences of Large Language Model AlignmentConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

456

12 Dec 2023