MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with
Diverse Human Preferences

MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences

14 February 2024

Souradip Chakraborty

Hui Yuan

Furong Huang

Amrit Singh Bedi

Mengdi Wang

Papers citing "MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences"

11 / 11 papers shown

Title
Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach Jiancong Xiao Bojian Hou Zhanliang Wang Ruochen Jin Q. Long Weijie Su Li Shen 28 0 0 04 May 2025
Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models Kefan Song Jin Yao Runnan Jiang Rohan Chandra Shangtong Zhang ALM 46 0 0 10 Mar 2025
LIVS: A Pluralistic Alignment Dataset for Inclusive Public Spaces Rashid Mushkani Shravan Nayak Hugo Berard Allison Cohen Shin Koseki Hadrien Bertrand 54 2 0 27 Feb 2025
Disentangling Preference Representation and Text Generation for Efficient Individual Preference Alignment Jianfei Zhang Jun Bai B. Li Yanmeng Wang Rumei Li Chenghua Lin Wenge Rong 41 0 0 31 Dec 2024
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions Yekun Chai Haoran Sun Huang Fang Shuohuan Wang Yu Sun Hua-Hong Wu 79 1 0 03 Oct 2024
SAIL: Self-Improving Efficient Online Alignment of Large Language Models Mucong Ding Souradip Chakraborty Vibhu Agrawal Zora Che Alec Koppel Mengdi Wang Amrit Singh Bedi Furong Huang 31 9 0 21 Jun 2024
Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback Vincent Conitzer Rachel Freedman J. Heitzig Wesley H. Holliday Bob M. Jacobs ... Eric Pacuit Stuart Russell Hailey Schoelkopf Emanuel Tewolde W. Zwicker 31 28 0 16 Apr 2024
Instruction Tuning with GPT-4 Baolin Peng Chunyuan Li Pengcheng He Michel Galley Jianfeng Gao SyDa ALM LM&MA 157 579 0 06 Apr 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,881 0 04 Mar 2022
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method Junyu Zhang Chengzhuo Ni Zheng Yu Csaba Szepesvári Mengdi Wang 44 66 0 17 Feb 2021
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 275 1,583 0 18 Sep 2019