Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback

9 March 2023

Paul Röttger

Papers citing "Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback"

26 / 26 papers shown

Title
HyPerAlign: Hypotheses-driven Personalized Alignment Cristina Garbacea Chenhao Tan 44 0 0 29 Apr 2025
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors Ren-Wei Liang Chin-Ting Hsu Chan-Hung Yu Saransh Agrawal Shih-Cheng Huang Shang-Tse Chen Kuan-Hao Huang Shao-Hua Sun 76 0 0 27 Apr 2025
Personalize Your LLM: Fake it then Align it Yijing Zhang Dyah Adila Changho Shin Frederic Sala 86 0 0 02 Mar 2025
CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants Lize Alberts Benjamin Ellis Andrei Lupu Jakob Foerster ELM 34 0 0 28 Oct 2024
Does Cross-Cultural Alignment Change the Commonsense Morality of Language Models? Yuu Jinnai 47 1 0 24 Jun 2024
Pareto-Optimal Learning from Preferences with Hidden Context Ryan Boldi Li Ding Lee Spector S. Niekum 54 6 0 21 Jun 2024
HYDRA: Model Factorization Framework for Black-Box LLM Personalization Yuchen Zhuang Haotian Sun Yue Yu Rushi Qiang Qifan Wang Chao Zhang Bo Dai AAML 33 14 0 05 Jun 2024
Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback Vincent Conitzer Rachel Freedman J. Heitzig Wesley H. Holliday Bob M. Jacobs ... Eric Pacuit Stuart Russell Hailey Schoelkopf Emanuel Tewolde W. Zwicker 31 28 0 16 Apr 2024
On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models Xinpeng Wang Shitong Duan Xiaoyuan Yi Jing Yao Shanlin Zhou Zhihua Wei Peng Zhang Dongkuan Xu Maosong Sun Xing Xie OffRL 33 16 0 07 Mar 2024
Not My Voice! A Taxonomy of Ethical and Safety Harms of Speech Generators Wiebke Hutiri Orestis Papakyriakopoulos Alice Xiang 16 15 0 25 Jan 2024
Auditing large language models: a three-layered approach Jakob Mokander Jonas Schuett Hannah Rose Kirk Luciano Floridi AILaw MLAU 24 193 0 16 Feb 2023
Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits Ruibo Liu Chenyan Jia Ge Zhang Ziyu Zhuang Tony X. Liu Soroush Vosoughi 66 34 0 01 Jan 2023
Large Language Models Meet Harry Potter: A Bilingual Dataset for Aligning Dialogue Agents with Characters Nuo Chen Yan Wang Haiyun Jiang Deng Cai Yuhan Li Ziyang Chen Longyue Wang Jia Li 19 8 0 13 Nov 2022
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 225 500 0 28 Sep 2022
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 218 441 0 23 Aug 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,881 0 04 Mar 2022
Can Machines Learn Morality? The Delphi Experiment Liwei Jiang Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jenny T Liang ... Yulia Tsvetkov Oren Etzioni Maarten Sap Regina A. Rini Yejin Choi FaML 117 110 0 14 Oct 2021
NaRLE: Natural Language Models using Reinforcement Learning with Emotion Feedback Ruijie Zhou Soham Deshmukh Jeremiah Greer Charles Lee 16 8 0 05 Oct 2021
UserIdentifier: Implicit User Representations for Simple and Effective Personalized Sentiment Analysis Fatemehsadat Mireshghallah Vaishnavi Shrivastava Milad Shokouhi Taylor Berg-Kirkpatrick Robert Sim Dimitrios Dimitriadis FedML 32 33 0 01 Oct 2021
Non-Parametric Online Learning from Human Feedback for Neural Machine Translation Dongqi Wang Hao-Ran Wei Zhirui Zhang Shujian Huang Jun Xie Jiajun Chen OffRL 44 15 0 23 Sep 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 267 1,808 0 14 Dec 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 275 1,583 0 18 Sep 2019
Supervised Domain Enablement Attention for Personalized Domain Classification Joo-Kyung Kim Young-Bum Kim 18 10 0 18 Dec 2018
AI safety via debate G. Irving Paul Christiano Dario Amodei 199 199 0 02 May 2018
How Algorithmic Confounding in Recommendation Systems Increases Homogeneity and Decreases Utility A. Chaney Brandon M Stewart Barbara E. Engelhardt CML 161 312 0 30 Oct 2017
Acquiring Background Knowledge to Improve Moral Value Prediction Ying Lin J. Hoover Morteza Dehghani M. Mooijman Heng Ji 22 61 0 16 Sep 2017