Group Robust Preference Optimization in Reward-free RLHF

30 May 2024

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Group Robust Preference Optimization in Reward-free RLHF"

41 / 41 papers shown

Title
When Human Preferences Flip: An Instance-Dependent Robust Loss for RLHF Yifan Xu Xichen Ye Yifan Chen Qiaosheng Zhang 40 0 0 30 Nov 2025
OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability Karen Ullrich Jingtong Su Claudia Shi Arjun Subramonian Amir Bar Ivan Evtimov Nikolaos Tsilivis Randall Balestriero Julia Kempe Mark Ibrahim 104 0 0 25 Nov 2025
UniGame: Turning a Unified Multimodal Model Into Its Own Adversary Zhaolong Su Wang Lu Hao Chen Sharon Li Jindong Wang 124 0 0 24 Nov 2025
Reflective Personalization Optimization: A Post-hoc Rewriting Framework for Black-Box Large Language Models Teqi Hao Xioayu Tan Shaojie Shi Yinghui Xu Xihe Qiu 184 0 0 07 Nov 2025
Offline Clustering of Preference Learning with Active-data Augmentation Jingyuan Liu Fatemeh Ghaffari Xuchuang Wang Xutong Liu Mohammad Hajiesmaili Carlee Joe-Wong OffRL 190 0 0 30 Oct 2025
$α$ -LoRA: Effective Fine-Tuning via Base Model Rescaling Aymane El Firdoussi El Mahdi Chayti Mohamed El Amine Seddik Martin Jaggi 108 0 0 24 Oct 2025
Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models Kedi Chen Zhikai Lei Xu Guo Xuecheng Wu Siyuan Zeng ... J. Zhou Liang He Qipeng Guo Kai Chen Wei-na Zhang AIMat AI4TS LRM 279 0 0 16 Oct 2025
GCPO: When Contrast Fails, Go Gold Hao Wu Wei Liu 112 0 0 09 Oct 2025
Murphys Laws of AI Alignment: Why the Gap Always Wins Madhava Gaikwad ALM 205 1 0 04 Sep 2025
SharedRep-RLHF: A Shared Representation Approach to RLHF with Diverse Preferences Arpan Mukherjee Marcello Bullo Deniz Gündüz 129 0 0 03 Sep 2025
Relative Advantage Debiasing for Watch-Time Prediction in Short-Video Recommendation Emily Liu Kuan Han Minfeng Zhan Bocheng Zhao Guanyu Mu Yang Song CML AI4TS 141 0 0 14 Aug 2025
Pref-GUIDE: Continual Policy Learning from Real-Time Human Feedback via Preference-Based Learning Zhengran Ji Boyuan Chen 181 1 0 10 Aug 2025
PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization Han Jiang Dongyao Zhu Zhihua Wei Xiaoyuan Yi Ziang Xiao Xing Xie 167 1 0 22 Jul 2025
Principled Foundations for Preference Optimization Wenxuan Zhou Shujian Zhang Brice Magdalou John Lambert Ehsan Amid Richard Nock Andrew Straiton Hard 262 0 0 10 Jul 2025
Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards Charles Arnal Gaëtan Narozniak Vivien A. Cabannes Yunhao Tang Julia Kempe Rémi Munos OffRL 184 12 0 25 Jun 2025
From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? Zhanke Zhou Xiao Feng Zhaocheng Zhu Jiangchao Yao Sanmi Koyejo Bo Han LRM 269 33 0 09 Jun 2025
Corrector Sampling in Language Models Itai Gat Neta Shaul Uriel Singer Y. Lipman KELM AI4TS 133 0 0 06 Jun 2025
Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework Kihyun Kim Jiawei Zhang Asuman Ozdaglar P. Parrilo 252 1 0 05 Jun 2025
Does Thinking More always Help? Mirage of Test-Time Scaling in Reasoning Models Soumya Suvra Ghosal Souradip Chakraborty Avinash Reddy Yifu Lu Mengdi Wang Dinesh Manocha Furong Huang Mohammad Ghavamzadeh Amrit Singh Bedi ReLM LRM 358 17 0 04 Jun 2025
DDO: Dual-Decision Optimization for LLM-Based Medical Consultation via Multi-Agent Collaboration Zhihao Jia Mingyi Jia Junwen Duan Jianxin Wang 243 1 0 24 May 2025
Stable Reinforcement Learning for Efficient Reasoning Muzhi Dai Shixuan Liu Qingyi Si OffRL LRM 292 12 0 23 May 2025
Group Distributionally Robust Optimization with Flexible Sample Queries Haomin Bai Dingzhi Yu Shuai Li Haipeng Luo Lijun Zhang 185 0 0 21 May 2025
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs Zheyu Shen Ziyao Wang Bowei Tian Meng Liu Sihan Chen Shwai He Bowei Tian Wanghao Ye Yiting Wang Ang Li LRM 214 3 0 19 May 2025
Fair-PP: A Synthetic Dataset for Aligning LLM with Personalized Preferences of Social Equity Qi Zhou Jie Zhang Dongxia Wang Qiang Liu Tianlin Li Jin Song Dong Wenhai Wang Qing Guo SyDa 276 1 0 17 May 2025
FairPO: Robust Preference Optimization for Fair Multi-Label Learning Soumen Kumar Mondal Prateek Chanda Prateek Chanda Ganesh Ramakrishnan 311 0 0 05 May 2025
Dynamic Early Exit in Reasoning Models Chenxu Yang Qingyi Si Yongjie Duan Zheliang Zhu Chenyu Zhu Zheng Lin Zheng Lin Li Cao Weiping Wang ReLM LRM 499 93 0 22 Apr 2025
Kongzi: A Historical Large Language Model with Fact Enhancement Jiashu Yang Ningning Wang Yian Zhao Chaoran Feng Junjia Du Hao Pang Zhirui Fang Xuxin Cheng HILM ALM LRM 211 2 0 13 Apr 2025
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning Kai Ye Hongyi Zhou Jin Zhu Francesco Quinzan C. Shi 399 5 0 03 Apr 2025
The Mind in the Machine: A Survey of Incorporating Psychological Theories in LLMs Zizhou Liu Ziwei Gong Lin Ai Zheng Hui Run Chen Colin Wayne Leach Michelle R. Greene Julia Hirschberg LLMAG 949 5 0 28 Mar 2025
Strategyproof Reinforcement Learning from Human Feedback Thomas Kleine Buening Jiarui Gan Debmalya Mandal Marta Z. Kwiatkowska 231 2 0 12 Mar 2025
Group Preference Alignment: Customized LLM Response Generation from In-Situ Conversations Ishani Mondal Jack W. Stokes S. Jauhar Longqi Yang Mengting Wan Xiaofeng Xu Xia Song Jennifer Neville 223 1 0 11 Mar 2025
Robust Multi-Objective Controlled Decoding of Large Language Models Seongho Son William Bankes Sangwoong Yoon Shyam Sundhar Ramesh Xiaohang Tang Ilija Bogunovic 324 5 0 11 Mar 2025
FedRLHF: A Convergence-Guaranteed Federated Framework for Privacy-Preserving and Personalized RLHFAdaptive Agents and Multi-Agent Systems (AAMAS), 2024 Flint Xiaofeng Fan Cheston Tan Yew-Soon Ong Roger Wattenhofer Wei Tsang Ooi 396 2 0 20 Dec 2024
Strada-LLM: Graph LLM for traffic prediction Seyed Mohamad Moghadas Yangxintong Lyu Alexandre Alahi Alexandre Alahi AI4TS 468 4 0 28 Oct 2024
Diverging Preferences: When do Annotators Disagree and do Models Know? Michael J.Q. Zhang Zhilin Wang Jena D. Hwang Yi Dong Olivier Delalleau Yejin Choi Eunsol Choi Xiang Ren Valentina Pyatkin 262 26 0 18 Oct 2024
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Zhiyong Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 396 16 0 04 Sep 2024
Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift Seongho Son William Bankes Sayak Ray Chowdhury Brooks Paige Ilija Bogunovic 381 8 0 26 Jul 2024
DPO Meets PPO: Reinforced Token Optimization for RLHF Han Zhong Zikang Shan Guhao Feng Wei Xiong Xinle Cheng Li Zhao Di He Jiang Bian Liwei Wang 589 96 0 29 Apr 2024
Reinforcement Learning from Human Feedback with Active Queries Kaixuan Ji Jiafan He Quanquan Gu 363 32 0 14 Feb 2024
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 839 449 0 18 Jan 2024
Crowd-PrefRL: Preference-Based Reward Learning from Crowds David Chhan Ellen R. Novoseller Vernon J. Lawhern 395 7 0 17 Jan 2024

All Papers

Group Robust Preference Optimization in Reward-free RLHF

Papers citing "Group Robust Preference Optimization in Reward-free RLHF"