v1v2 (latest)

A General Theoretical Paradigm to Understand Learning from Human Preferences

International Conference on Artificial Intelligence and Statistics (AISTATS), 2023

18 October 2023

Bilal Piot

Daniele Calandriello

ArXiv (abs)PDF HTML HuggingFace (16 upvotes)

Papers citing "A General Theoretical Paradigm to Understand Learning from Human Preferences"

24 / 574 papers shown

Title
KTO: Model Alignment as Prospect Theoretic Optimization Kawin Ethayarajh Winnie Xu Niklas Muennighoff Dan Jurafsky Douwe Kiela 702 793 0 02 Feb 2024
Towards Efficient Exact Optimization of Language Model Alignment Haozhe Ji Cheng Lu Yilin Niu Pei Ke Hongning Wang Jun Zhu Jie Tang Shiyu Huang 236 32 0 01 Feb 2024
Dense Reward for Free in Reinforcement Learning from Human Feedback Alex J. Chan Hao Sun Samuel Holt M. Schaar 236 59 0 01 Feb 2024
Transforming and Combining Rewards for Aligning Large Language Models Zihao Wang Chirag Nagpal Jonathan Berant Jacob Eisenstein Alex DÁmour Oluwasanmi Koyejo Victor Veitch 207 23 0 01 Feb 2024
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing Fangkai Jiao Chengwei Qin Zhengyuan Liu Nancy F. Chen Shafiq Joty LRM 188 49 0 01 Feb 2024
GRATH: Gradual Self-Truthifying for Large Language ModelsInternational Conference on Machine Learning (ICML), 2024 Weixin Chen Basel Alomair Yue Liu HILM SyDa 118 7 0 22 Jan 2024
WARM: On the Benefits of Weight Averaged Reward ModelsInternational Conference on Machine Learning (ICML), 2024 Alexandre Ramé Nino Vieillard Léonard Hussenot Robert Dadashi Geoffrey Cideron Olivier Bachem Johan Ferret 324 129 0 22 Jan 2024
ReFT: Reasoning with Reinforced Fine-TuningAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Trung Quoc Luong Xinbo Zhang Zhanming Jie Yang Liu Xiaoran Jin Hang Li OffRL LRM ReLM 260 222 0 17 Jan 2024
A Minimaximalist Approach to Reinforcement Learning from Human FeedbackInternational Conference on Machine Learning (ICML), 2024 Gokul Swamy Christoph Dann Rahul Kidambi Zhiwei Steven Wu Alekh Agarwal OffRL 416 127 0 08 Jan 2024
Theoretical guarantees on the best-of-n alignment policy Ahmad Beirami Alekh Agarwal Jonathan Berant Alex DÁmour Jacob Eisenstein Chirag Nagpal A. Suresh 406 84 0 03 Jan 2024
Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles Yuanzhao Zhai Han Zhang Yu Lei Yue Yu Kele Xu Dawei Feng Bo Ding Huaimin Wang AI4CE 277 39 0 30 Dec 2023
Beyond Output Matching: Bidirectional Alignment for Enhanced In-Context Learning Chengwei Qin Wenhan Xia Fangkai Jiao Chen Chen Yuchen Hu Bosheng Ding R. Chen Shafiq Joty 291 7 0 28 Dec 2023
Preference as Reward, Maximum Preference Optimization with Importance Sampling Zaifan Jiang Xing Huang Chao Wei 267 3 0 27 Dec 2023
Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint Wei Xiong Hanze Dong Chen Ye Ziqi Wang Han Zhong Heng Ji Nan Jiang Tong Zhang OffRL 255 286 0 18 Dec 2023
Policy Optimization in RLHF: The Impact of Out-of-preference Data Ziniu Li Tian Xu Yang Yu 286 38 0 17 Dec 2023
On Diversified Preferences of Large Language Model AlignmentConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Dun Zeng Yong Dai Pengyu Cheng Longyue Wang Tianhao Hu Wanshun Chen Nan Du Zenglin Xu ALM 252 18 0 12 Dec 2023
RLHF and IIA: Perverse Incentives Wanqiao Xu Shi Dong Xiuyuan Lu Grace Lam Zheng Wen Benjamin Van Roy 216 4 0 02 Dec 2023
Nash Learning from Human FeedbackInternational Conference on Machine Learning (ICML), 2023 Rémi Munos Michal Valko Daniele Calandriello M. G. Azar Mark Rowland ... Nikola Momchev Olivier Bachem D. Mankowitz Doina Precup Bilal Piot 417 181 0 01 Dec 2023
A density estimation perspective on learning from pairwise human preferences Vincent Dumoulin Daniel D. Johnson Pablo Samuel Castro Hugo Larochelle Yann Dauphin 185 21 0 23 Nov 2023
Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM GameAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Pengyu Cheng Yifan Yang Jian Li Yong Dai Tianhao Hu Peixin Cao Nan Du Xiaolong Li 605 33 0 14 Nov 2023
Controlled Decoding from Language ModelsInternational Conference on Machine Learning (ICML), 2023 Sidharth Mudgal Jong Lee H. Ganapathy Yaguang Li Tao Wang ... Michael Collins Trevor Strohman Jilin Chen Alex Beutel Ahmad Beirami 403 113 0 25 Oct 2023
Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New LanguagesAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Shih-Cheng Huang Pin-Zu Li Yu-Chi Hsu Kuang-Ming Chen Yu Tung Lin Shih-Kai Hsiao Richard Tzong-Han Tsai Hung-yi Lee MoMe 204 33 0 07 Oct 2023
Mitigating the Alignment Tax of RLHFConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Yong Lin Hangyu Lin Wei Xiong Shizhe Diao Zeming Zheng ... Han Zhao Nan Jiang Heng Ji Xingtai Lv Tong Zhang MoMe CLL 451 121 0 12 Sep 2023
Let Me Teach You: Pedagogical Foundations of Feedback for Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Beatriz Borges Niket Tandon Tanja Käser Antoine Bosselut 400 8 0 01 Jul 2023

All Papers

A General Theoretical Paradigm to Understand Learning from Human Preferences

Papers citing "A General Theoretical Paradigm to Understand Learning from Human Preferences"