The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values

11 October 2023

Paul Röttger

Papers citing "The Past, Present and Better Future of Feedback Learning in Large Language Models for Subjective Human Preferences and Values"

42 / 42 papers shown

Title
Persona-judge: Personalized Alignment of Large Language Models via Token-level Self-judgment Xiaotian Zhang Ruizhe Chen Yang Feng Zuozhu Liu 40 0 0 17 Apr 2025
Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models Jiawei Lian Jianhong Pan L. Wang Yi Wang Shaohui Mei Lap-Pui Chau AAML 24 0 0 07 Apr 2025
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users Antonia Karamolegkou Malvina Nikandrou Georgios Pantazopoulos Danae Sanchez Villegas Phillip Rust Ruchira Dhar Daniel Hershcovich Anders Søgaard 34 0 0 28 Mar 2025
A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications Jian-Yu Guan J. Wu J. Li Chuanqi Cheng Wei Yu Wu LM&MA 69 0 0 21 Mar 2025
From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment J. Li Jian-Yu Guan Songhao Wu Wei Yu Wu Rui Yan 56 1 0 19 Mar 2025
VeriPlan: Integrating Formal Verification and LLMs into End-User Planning Christine P. Lee David J. Porfirio Xinyu Jessica Wang Kevin Zhao Bilge Mutlu 80 1 0 25 Feb 2025
Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs Jonathan Rystrøm Hannah Rose Kirk Scott A. Hale 36 2 0 23 Feb 2025
R2-KG: General-Purpose Dual-Agent Framework for Reliable Reasoning on Knowledge Graphs Sumin Jo Junseong Choi Jiho Kim E. Choi 41 0 0 18 Feb 2025
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback Lester James Validad Miranda Yizhong Wang Yanai Elazar Sachin Kumar Valentina Pyatkin Faeze Brahman Noah A. Smith Hannaneh Hajishirzi Pradeep Dasigi 45 8 0 08 Jan 2025
Fool Me, Fool Me: User Attitudes Toward LLM Falsehoods Diana Bar-Or Nirman Ariel Weizman Amos Azaria HILM 73 1 0 16 Dec 2024
SPICA: Retrieving Scenarios for Pluralistic In-Context Alignment Quan Ze Chen K. J. Kevin Feng Chan Young Park Amy X. Zhang 23 0 0 16 Nov 2024
ComPO: Community Preferences for Language Model Personalization Sachin Kumar Chan Young Park Yulia Tsvetkov Noah A. Smith Hannaneh Hajishirzi 16 0 0 21 Oct 2024
Intuitions of Compromise: Utilitarianism vs. Contractualism Jared Moore Yejin Choi Sydney Levine 21 0 0 07 Oct 2024
How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies Alina Leidinger Richard Rogers 32 2 0 16 Jul 2024
AI Alignment through Reinforcement Learning from Human Feedback? Contradictions and Limitations Adam Dahlgren Lindstrom Leila Methnani Lea Krause Petter Ericson Ínigo Martínez de Rituerto de Troya Dimitri Coelho Mollo Roel Dobbe ALM 18 2 0 26 Jun 2024
A Survey on Human Preference Learning for Large Language Models Ruili Jiang Kehai Chen Xuefeng Bai Zhixuan He Juntao Li Muyun Yang Tiejun Zhao Liqiang Nie Min Zhang 39 8 0 17 Jun 2024
Whose Preferences? Differences in Fairness Preferences and Their Impact on the Fairness of AI Utilizing Human Feedback Emilia Agis Lerner Florian E. Dorner Elliott Ash Naman Goel 21 1 0 09 Jun 2024
FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models Rui Ye Rui Ge Xinyu Zhu Jingyi Chai Yaxin Du Yang Liu Yanfeng Wang Siheng Chen FedML 33 13 0 07 Jun 2024
A Robot Walks into a Bar: Can Language Models Serve as Creativity Support Tools for Comedy? An Evaluation of LLMs' Humour Alignment with Comedians Piotr Wojciech Mirowski Juliette Love K. Mathewson Shakir Mohamed 16 19 0 31 May 2024
Participation in the age of foundation models Harini Suresh Emily Tseng Meg Young Mary L. Gray Emma Pierson Karen Levy 19 19 0 29 May 2024
Aligning to Thousands of Preferences via System Message Generalization Seongyun Lee Sue Hyun Park Seungone Kim Minjoon Seo ALM 16 35 0 28 May 2024
AdvisorQA: Towards Helpful and Harmless Advice-seeking Question Answering with Collective Intelligence Minbeom Kim Hwanhee Lee Joonsuk Park Hwaran Lee Kyomin Jung 19 1 0 18 Apr 2024
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models Paul Röttger Valentin Hofmann Valentina Pyatkin Musashi Hinck Hannah Rose Kirk Hinrich Schütze Dirk Hovy ELM 14 53 0 26 Feb 2024
LLMs with Industrial Lens: Deciphering the Challenges and Prospects -- A Survey Ashok Urlana Charaka Vinayak Kumar Ajeet Kumar Singh B. Garlapati S. Chalamala Rahul Mishra 29 5 0 22 Feb 2024
OpenFedLLM: Training Large Language Models on Decentralized Private Data via Federated Learning Rui Ye Wenhao Wang Jingyi Chai Dihan Li Zexi Li Yinda Xu Yaxin Du Yanfeng Wang Siheng Chen ALM FedML AIFin 4 76 0 10 Feb 2024
Professional Agents -- Evolving Large Language Models into Autonomous Experts with Human-Level Competencies Zhixuan Chu Yan Wang Feng Zhu Lu Yu Longfei Li Jinjie Gu LLMAG 16 8 0 06 Feb 2024
The Empty Signifier Problem: Towards Clearer Paradigms for Operationalising "Alignment" in Large Language Models Hannah Rose Kirk Bertie Vidgen Paul Röttger Scott A. Hale 35 2 0 03 Oct 2023
$Decolonial AI Alignment: Openness, Viśe\d{s}a-Dharma, and Including Excluded Knowledges$ Decolonial AI Alignment: Openness, Viśe\d{s}a-Dharma, and Including Excluded Knowledges Kush R. Varshney 15 2 0 10 Sep 2023
Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits Ruibo Liu Chenyan Jia Ge Zhang Ziyu Zhuang Tony X. Liu Soroush Vosoughi 50 34 0 01 Jan 2023
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 225 495 0 28 Sep 2022
Teaching language models to support answers with verified quotes Jacob Menick Maja Trebacz Vladimir Mikulik John Aslanides Francis Song ... Mia Glaese Susannah Young Lucy Campbell-Gillingham G. Irving Nat McAleese ELM RALM 220 204 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Can Machines Learn Morality? The Delphi Experiment Liwei Jiang Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jenny T Liang ... Yulia Tsvetkov Oren Etzioni Maarten Sap Regina A. Rini Yejin Choi FaML 112 110 0 14 Oct 2021
NaRLE: Natural Language Models using Reinforcement Learning with Emotion Feedback Ruijie Zhou Soham Deshmukh Jeremiah Greer Charles Lee 8 7 0 05 Oct 2021
Non-Parametric Online Learning from Human Feedback for Neural Machine Translation Dongqi Wang Hao-Ran Wei Zhirui Zhang Shujian Huang Jun Xie Jiajun Chen OffRL 37 15 0 23 Sep 2021
Challenges in Detoxifying Language Models Johannes Welbl Amelia Glaese J. Uesato Sumanth Dathathri John F. J. Mellor Lisa Anne Hendricks Kirsty Anderson Pushmeet Kohli Ben Coppin Po-Sen Huang LM&MA 242 191 0 15 Sep 2021
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 273 1,561 0 18 Sep 2019
Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets Mor Geva Yoav Goldberg Jonathan Berant 232 319 0 21 Aug 2019
Improving a Neural Semantic Parser by Counterfactual Learning from Human Bandit Feedback Carolin (Haas) Lawrence Stefan Riezler OffRL 169 56 0 03 May 2018
Acquiring Background Knowledge to Improve Moral Value Prediction Ying Lin J. Hoover Morteza Dehghani M. Mooijman Heng Ji 22 61 0 16 Sep 2017
Dialogue Learning With Human-In-The-Loop Jiwei Li Alexander H. Miller S. Chopra MarcÁurelio Ranzato Jason Weston OffRL 213 132 0 29 Nov 2016
Deep Reinforcement Learning for Dialogue Generation Jiwei Li Will Monroe Alan Ritter Michel Galley Jianfeng Gao Dan Jurafsky 189 1,280 0 05 Jun 2016