A General Theoretical Paradigm to Understand Learning from Human Preferences

18 October 2023

Bilal Piot

Daniele Calandriello

Papers citing "A General Theoretical Paradigm to Understand Learning from Human Preferences"

50 / 415 papers shown

Title
Boltzmann-Aligned Inverse Folding Model as a Predictor of Mutational Effects on Protein-Protein Interactions Xiaoran Jiao Weian Mao Wengong Jin Peiyuan Yang Hao Chen Chunhua Shen 28 0 0 12 Oct 2024
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment Lei Li Zhihui Xie Mukai Li Shunian Chen Peiyi Wang L. Chen Yazheng Yang Benyou Wang Lingpeng Kong Q. Liu VLM ALM 34 17 0 12 Oct 2024
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment Huayu Chen Hang Su Peize Sun J. Zhu VLM 43 3 0 12 Oct 2024
PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning Tingchen Fu Mrinank Sharma Philip H. S. Torr Shay B. Cohen David M. Krueger Fazl Barez AAML 42 7 0 11 Oct 2024
Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both Abhijnan Nath Changsoo Jung Ethan Seefried Nikhil Krishnaswamy 119 1 0 11 Oct 2024
Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization Noam Razin Sadhika Malladi Adithya Bhaskar Danqi Chen Sanjeev Arora Boris Hanin 89 14 0 11 Oct 2024
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization Guanlin Liu Kaixuan Ji Ning Dai Zheng Wu Chen Dun Q. Gu Lin Yan Quanquan Gu Lin Yan OffRL LRM 48 8 0 11 Oct 2024
HyperDPO: Hypernetwork-based Multi-Objective Fine-Tuning Framework Yinuo Ren Tesi Xiao Michael Shavlovsky Lexing Ying Holakou Rahmanian 23 0 0 10 Oct 2024
Evolutionary Contrastive Distillation for Language Model Alignment Julian Katz-Samuels Zheng Li Hyokun Yun Priyanka Nigam Yi Xu Vaclav Petricek Bing Yin Trishul M. Chilimbi ALM SyDa 26 0 0 10 Oct 2024
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs Shenao Zhang Zhihan Liu Boyi Liu Y. Zhang Yingxiang Yang Y. Liu Liyu Chen Tao Sun Z. Wang 87 2 0 10 Oct 2024
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning Chongyu Fan Jiancheng Liu Licong Lin Jinghan Jia Ruiqi Zhang Song Mei Sijia Liu MU 43 16 0 09 Oct 2024
Accelerated Preference Optimization for Large Language Model Alignment Jiafan He Huizhuo Yuan Q. Gu 26 1 0 08 Oct 2024
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback Guojun Xiong Ujwal Dinesha Debajoy Mukherjee Jian Li Srinivas Shakkottai 42 2 0 07 Oct 2024
SparsePO: Controlling Preference Alignment of LLMs via Sparse Token Masks Fenia Christopoulou Ronald Cardenas Gerasimos Lampouras Haitham Bou-Ammar Jun Wang 25 1 0 07 Oct 2024
As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss Xin Mao Feng-Lin Li Huimin Xu Wei Zhang Wang Chen A. Luu 27 1 0 07 Oct 2024
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths Yew Ken Chia Guizhen Chen Weiwen Xu Luu Anh Tuan Soujanya Poria Lidong Bing LRM 23 0 0 07 Oct 2024
LRHP: Learning Representations for Human Preferences via Preference Pairs Chenglong Wang Yang Gan Yifu Huo Yongyu Mu Qiaozhi He Murun Yang Tong Xiao Chunliang Zhang Tongran Liu Jingbo Zhu AI4TS 32 0 0 06 Oct 2024
Latent Feature Mining for Predictive Model Enhancement with Large Language Models Bingxuan Li Pengyi Shi Amy Ward 57 0 0 06 Oct 2024
MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans? Guanzhen Li Yuxi Xie Min-Yen Kan VLM 101 0 0 06 Oct 2024
Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF Zhaolin Gao Wenhao Zhan Jonathan D. Chang Gokul Swamy Kianté Brantley Jason D. Lee Wen Sun OffRL 56 3 0 06 Oct 2024
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification Zhenwen Liang Ye Liu Tong Niu Xiangliang Zhang Yingbo Zhou Semih Yavuz LRM 32 17 0 05 Oct 2024
RainbowPO: A Unified Framework for Combining Improvements in Preference Optimization Hanyang Zhao Genta Indra Winata Anirban Das Shi-Xiong Zhang D. Yao Wenpin Tang Sambit Sahu 54 5 0 05 Oct 2024
Learning Code Preference via Synthetic Evolution Jiawei Liu Thanh Nguyen Mingyue Shang Hantian Ding Xiaopeng Li Yu Yu Varun Kumar Zijian Wang SyDa ALM AAML 26 3 0 04 Oct 2024
Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback Kyuyoung Kim Ah Jeong Seo Hao Liu Jinwoo Shin Kimin Lee 22 2 0 04 Oct 2024
X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale Haoran Xu Kenton W. Murray Philipp Koehn Hieu T. Hoang Akiko Eriguchi Huda Khayrallah 29 7 0 04 Oct 2024
Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation Rohin Manvi Anikait Singh Stefano Ermon SyDa 19 15 0 03 Oct 2024
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions Yekun Chai Haoran Sun Huang Fang Shuohuan Wang Yu Sun Hua-Hong Wu 132 1 0 03 Oct 2024
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment Yifan Zhang Ge Zhang Yue Wu Kangping Xu Quanquan Gu 40 3 0 03 Oct 2024
Strong Preferences Affect the Robustness of Preference Models and Value Alignment Ziwei Xu Mohan Kankanhalli AAML 19 0 0 03 Oct 2024
Generative Reward Models Dakota Mahan Duy Phung Rafael Rafailov Chase Blagden Nathan Lile Louis Castricato Jan-Philipp Fränken Chelsea Finn Alon Albalak VLM SyDa OffRL 27 26 0 02 Oct 2024
Beyond Scalar Reward Model: Learning Generative Judge from Preference Data Ziyi Ye Xiangsheng Li Qiuchi Li Qingyao Ai Yujia Zhou Wei Shen Dong Yan Yiqun Liu 48 10 0 01 Oct 2024
The Crucial Role of Samplers in Online Direct Preference Optimization Ruizhe Shi Runlong Zhou Simon S. Du 53 8 0 29 Sep 2024
Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review Emma Croxford Yanjun Gao Nicholas Pellegrino Karen K. Wong Graham Wills Elliot First Frank J. Liao Cherodeep Goswami Brian Patterson Majid Afshar HILM ELM LM&MA 37 1 0 26 Sep 2024
Inference-Time Language Model Alignment via Integrated Value Guidance Zhixuan Liu Zhanhui Zhou Yuanfu Wang Chao Yang Yu Qiao 27 7 0 26 Sep 2024
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness Jian Li Haojing Huang Yujia Zhang Pengfei Xu Xi Chen Rui Song Lida Shi Jingwen Wang Hao Xu 26 0 0 26 Sep 2024
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult Cheolhun Jang 28 0 0 26 Sep 2024
Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization Ruijie Xu Zhihan Liu Yongfei Liu Shipeng Yan Zhaoran Wang Zhi-Li Zhang Xuming He ALM 35 1 0 26 Sep 2024
On Extending Direct Preference Optimization to Accommodate Ties Jinghong Chen Guangyu Yang Weizhe Lin Jingbiao Mei Bill Byrne 32 3 0 25 Sep 2024
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference Qining Zhang Lei Ying OffRL 37 2 0 25 Sep 2024
Orthogonal Finetuning for Direct Preference Optimization Chenxu Yang Ruipeng Jia Naibin Gu Zheng-Shen Lin Siyuan Chen Chao Pang Weichong Yin Yu Sun Hua-Hong Wu Weiping Wang 27 0 0 23 Sep 2024
Backtracking Improves Generation Safety Yiming Zhang Jianfeng Chi Hailey Nguyen Kartikeya Upasani Daniel M. Bikel Jason Weston Eric Michael Smith SILM 41 6 0 22 Sep 2024
RRM: Robust Reward Model Training Mitigates Reward Hacking Tianqi Liu Wei Xiong Jie Jessie Ren Lichang Chen Junru Wu ... Yuan Liu Bilal Piot Abe Ittycheriah Aviral Kumar Mohammad Saleh AAML 52 13 0 20 Sep 2024
Preference Alignment Improves Language Model-Based TTS Jinchuan Tian Chunlei Zhang Jiatong Shi Hao Zhang Jianwei Yu Shinji Watanabe Dong Yu 30 7 0 19 Sep 2024
From Lists to Emojis: How Format Bias Affects Model Alignment Xuanchang Zhang Wei Xiong Lichang Chen Tianyi Zhou Heng Huang Tong Zhang ALM 33 10 0 18 Sep 2024
Reward-Robust RLHF in LLMs Yuzi Yan Xingzhou Lou Jialian Li Yiping Zhang Jian Xie Chao Yu Yu Wang Dong Yan Yuan Shen 40 8 0 18 Sep 2024
REAL: Response Embedding-based Alignment for LLMs Honggen Zhang Igor Molybog June Zhang Xufeng Zhao 21 1 0 17 Sep 2024
AIPO: Improving Training Objective for Iterative Preference Optimization Yaojie Shen Xinyao Wang Yulei Niu Ying Zhou Lexin Tang Libo Zhang Fan Chen Longyin Wen 23 2 0 13 Sep 2024
Alignment of Diffusion Models: Fundamentals, Challenges, and Future Buhua Liu Shitong Shao Bao Li Lichen Bai Zhiqiang Xu Haoyi Xiong James Kwok Sumi Helal Zeke Xie 37 11 0 11 Sep 2024
Policy Filtration in RLHF to Fine-Tune LLM for Code Generation Wei Shen Chuheng Zhang OffRL 36 6 0 11 Sep 2024
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Z. Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 41 11 0 04 Sep 2024