RRHF: Rank Responses to Align Language Models with Human Feedback without tears

11 April 2023

Zheng Yuan

Hongyi Yuan

Chuanqi Tan

Papers citing "RRHF: Rank Responses to Align Language Models with Human Feedback without tears"

50 / 282 papers shown

Title
A Survey on Human Preference Learning for Large Language Models Ruili Jiang Kehai Chen Xuefeng Bai Zhixuan He Juntao Li Muyun Yang Tiejun Zhao Liqiang Nie Min Zhang 39 8 0 17 Jun 2024
Toward Optimal LLM Alignments Using Two-Player Games Rui Zheng Hongyi Guo Zhihan Liu Xiaoying Zhang Yuanshun Yao ... Tao Gui Qi Zhang Xuanjing Huang Hang Li Yang Liu 58 5 0 16 Jun 2024
Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon Captioning Jifan Zhang Lalit P. Jain Yang Guo Jiayi Chen Kuan Lok Zhou ... Scott Sievert Timothy Rogers Kevin Jamieson Robert Mankoff Robert Nowak 29 5 0 15 Jun 2024
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms Miaosen Zhang Yixuan Wei Zhen Xing Yifei Ma Zuxuan Wu ... Zheng-Wei Zhang Qi Dai Chong Luo Xin Geng Baining Guo VLM 46 1 0 13 Jun 2024
ContraSolver: Self-Alignment of Language Models by Resolving Internal Preference Contradictions Xu Zhang Xunjian Yin Xiaojun Wan 40 3 0 13 Jun 2024
PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences Daiwei Chen Yi Chen Aniket Rege Ramya Korlakai Vinayak 38 17 0 12 Jun 2024
Aligning Large Language Models with Representation Editing: A Control Perspective Lingkai Kong Haorui Wang Wenhao Mu Yuanqi Du Yuchen Zhuang Yifei Zhou Yue Song Rongzhi Zhang Kai Wang Chao Zhang 30 22 0 10 Jun 2024
Creativity Has Left the Chat: The Price of Debiasing Language Models Behnam Mohammadi 27 9 0 08 Jun 2024
Prototypical Reward Network for Data-Efficient RLHF Jinghan Zhang Xiting Wang Yiqiao Jin Changyu Chen Xinhao Zhang Kunpeng Liu ALM 41 18 0 06 Jun 2024
Aligning Large Language Models via Fine-grained Supervision Dehong Xu Liang Qiu Minseok Kim Faisal Ladhak Jaeyoung Do 30 2 0 04 Jun 2024
Self-Improving Robust Preference Optimization Eugene Choi Arash Ahmadian Matthieu Geist Oilvier Pietquin M. G. Azar 28 8 0 03 Jun 2024
BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling Lin Gui Cristina Garbacea Victor Veitch BDL LM&MA 41 36 0 02 Jun 2024
A Survey on Large Language Models for Code Generation Juyong Jiang Fan Wang Jiasi Shen Sungju Kim Sunghun Kim 40 159 0 01 Jun 2024
Direct Alignment of Language Models via Quality-Aware Self-Refinement Runsheng Yu Yong Wang Xiaoqi Jiao Youzhi Zhang James T. Kwok 48 7 0 31 May 2024
Transfer Q Star: Principled Decoding for LLM Alignment Souradip Chakraborty Soumya Suvra Ghosal Ming Yin Dinesh Manocha Mengdi Wang Amrit Singh Bedi Furong Huang 44 24 0 30 May 2024
TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models Chen Zhang Chengguang Tang Dading Chong Ke Shi Guohua Tang Feng Jiang Haizhou Li 27 4 0 30 May 2024
Preference Learning Algorithms Do Not Learn Preference Rankings Angelica Chen Sadhika Malladi Lily H. Zhang Xinyi Chen Qiuyi Zhang Rajesh Ranganath Kyunghyun Cho 25 22 0 29 May 2024
Offline Regularised Reinforcement Learning for Large Language Models Alignment Pierre Harvey Richemond Yunhao Tang Daniel Guo Daniele Calandriello M. G. Azar ... Gil Shamir Rishabh Joshi Tianqi Liu Rémi Munos Bilal Piot OffRL 40 21 0 29 May 2024
Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning Tiansheng Huang Sihao Hu Fatih Ilhan Selim Furkan Tekin Ling Liu 42 23 0 28 May 2024
Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment Keming Lu Bowen Yu Fei Huang Yang Fan Runji Lin Chang Zhou MoMe 24 18 0 28 May 2024
Aligning LLMs through Multi-perspective User Preference Ranking-based Feedback for Programming Question Answering Hongyu Yang Liyang He Min Hou Shuanghong Shen Rui Li Jiahui Hou Jianhui Ma Junda Zhao 27 4 0 27 May 2024
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models Chia-Yi Hsu Yu-Lin Tsai Chih-Hsun Lin Pin-Yu Chen Chia-Mu Yu Chun-ying Huang 44 32 0 27 May 2024
SimPO: Simple Preference Optimization with a Reference-Free Reward Yu Meng Mengzhou Xia Danqi Chen 57 345 0 23 May 2024
Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast Chufan Shi Cheng Yang Xinyu Zhu Jiahao Wang Taiqiang Wu Siheng Li Deng Cai Yujiu Yang Yu Meng MoE 45 9 0 23 May 2024
LIRE: listwise reward enhancement for preference alignment Mingye Zhu Yi Liu Lei Zhang Junbo Guo Zhendong Mao 26 7 0 22 May 2024
Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process Ermo Hua Biqing Qi Kaiyan Zhang Yue Yu Ning Ding Xingtai Lv Kai Tian Bowen Zhou 32 3 0 20 May 2024
Hummer: Towards Limited Competitive Preference Dataset Li Jiang Yusen Wu Junwu Xiong Jingqing Ruan Yichuan Ding Qingpei Guo Zujie Wen Jun Zhou Xiaotie Deng 29 6 0 19 May 2024
RLHF Workflow: From Reward Modeling to Online RLHF Hanze Dong Wei Xiong Bo Pang Haoxiang Wang Han Zhao Yingbo Zhou Nan Jiang Doyen Sahoo Caiming Xiong Tong Zhang OffRL 21 95 0 13 May 2024
Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation JoonHo Lee Jae Oh Woo Juree Seok Parisa Hassanzadeh Wooseok Jang ... Hankyu Moon Wenjun Hu Yeong-Dae Kwon Taehee Lee Seungjai Min 45 2 0 10 May 2024
The Real, the Better: Aligning Large Language Models with Online Human Behaviors Guanying Jiang Lingyong Yan Haibo Shi Dawei Yin 28 2 0 01 May 2024
Soft Preference Optimization: Aligning Language Models to Expert Distributions Arsalan Sharifnassab Sina Ghiassian Saber Salehkaleybar Surya Kanoria Dale Schuurmans 28 2 0 30 Apr 2024
Relevant or Random: Can LLMs Truly Perform Analogical Reasoning? Chengwei Qin Wenhan Xia Tan Wang Fangkai Jiao Yuchen Hu Bosheng Ding Ruirui Chen Shafiq R. Joty LRM 37 3 0 19 Apr 2024
Token-level Direct Preference Optimization Yongcheng Zeng Guoqing Liu Weiyu Ma Ning Yang Haifeng Zhang Jun Wang 24 42 0 18 Apr 2024
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study Shusheng Xu Wei Fu Jiaxuan Gao Wenjie Ye Weiling Liu Zhiyu Mei Guangju Wang Chao Yu Yi Wu 33 133 0 16 Apr 2024
Self-playing Adversarial Language Game Enhances LLM Reasoning Pengyu Cheng Tianhao Hu Han Xu Zhisong Zhang Yong Dai Lei Han Nan Du Nan Du Xiaolong Li SyDa LRM ReLM 87 29 0 16 Apr 2024
Exploring Text-to-Motion Generation with Human Preference Jenny Sheng Matthieu Lin Andrew Zhao Kevin Pruvost Yu-Hui Wen Yangguang Li Gao Huang Yong-Jin Liu VGen 32 1 0 15 Apr 2024
RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs Shreyas Chaudhari Pranjal Aggarwal Vishvak Murahari Tanmay Rajpurohit A. Kalyan Karthik Narasimhan A. Deshpande Bruno Castro da Silva 21 34 0 12 Apr 2024
Aligning Diffusion Models by Optimizing Human Utility Shufan Li Konstantinos Kallidromitis Akash Gokul Yusuke Kato Kazuki Kozuka 105 27 0 06 Apr 2024
ROPO: Robust Preference Optimization for Large Language Models Xize Liang Chao Chen Shuang Qiu Jie Wang Yue-bo Wu Zhihang Fu Zhihao Shi Feng Wu Jieping Ye 43 1 0 05 Apr 2024
Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data Jingyu Zhang Marc Marone Tianjian Li Benjamin Van Durme Daniel Khashabi 85 9 0 05 Apr 2024
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences Corby Rosset Ching-An Cheng Arindam Mitra Michael Santacroce Ahmed Hassan Awadallah Tengyang Xie 144 114 0 04 Apr 2024
Prior Constraints-based Reward Model Training for Aligning Large Language Models Hang Zhou Chenglong Wang Yimin Hu Tong Xiao Chunliang Zhang Jingbo Zhu ALM 36 2 0 01 Apr 2024
DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model Lirui Zhao Yue Yang Kaipeng Zhang Wenqi Shao Yuxin Zhang Yu Qiao Ping Luo Rongrong Ji LM&Ro LLMAG VLM 29 3 0 31 Mar 2024
Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model Qi Gou Cam-Tu Nguyen 27 8 0 28 Mar 2024
sDPO: Don't Use Your Data All at Once Dahyun Kim Yungi Kim Wonho Song Hyeonwoo Kim Yunsu Kim Sanghoon Kim Chanjun Park 20 30 0 28 Mar 2024
Understanding the Learning Dynamics of Alignment with Human Feedback Shawn Im Yixuan Li ALM 32 11 0 27 Mar 2024
CLHA: A Simple yet Effective Contrastive Learning Framework for Human Alignment Feiteng Fang Liang Zhu Min Yang Xi Feng Jinchang Hou Qixuan Zhao Chengming Li Xiping Hu Ruifeng Xu 32 0 0 25 Mar 2024
Improving the Robustness of Large Language Models via Consistency Alignment Zhao Yukun Lingyong Yan Weiwei Sun Guoliang Xing Shuaiqiang Wang Meng Chong Zhicong Cheng Zhaochun Ren Yin Dawei 35 18 0 21 Mar 2024
Large language models in 6G security: challenges and opportunities Tri Nguyen Huong Nguyen Ahmad Ijaz Saeid Sheikhi Athanasios V. Vasilakos Panos Kostakos ELM 22 7 0 18 Mar 2024
Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment Feifan Song Bowen Yu Hao Lang Haiyang Yu Fei Huang Houfeng Wang Yongbin Li ALM 33 11 0 17 Mar 2024