Title
Empirically evaluating commonsense intelligence in large language models with large-scale human judgments Tuan Dung Nguyen Duncan J. Watts Mark E. Whiting ELM 24 0 0 15 May 2025
The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach Chad Coleman W. Russell Neuman Ali Dasdan Safinah Ali Manan Shah ELM LRM 50 0 0 27 Apr 2025
Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions Saffron Huang Esin Durmus Miles McCain Kunal Handa Alex Tamkin Jerry Hong Michael Stern Arushi Somani Xiuruo Zhang Deep Ganguli VLM 51 1 0 21 Apr 2025
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives Ayoung Lee Ryan Sungmo Kwon Peter Railton Lu Wang ELM 51 0 0 15 Apr 2025
Robust Multi-Objective Controlled Decoding of Large Language Models Seongho Son William Bankes Sangwoong Yoon Shyam Sundhar Ramesh Xiaohang Tang Ilija Bogunovic 39 0 0 11 Mar 2025
Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models Haoran Ye T. Zhang Yuhang Xie Liyuan Zhang Yuanyi Ren Xin Zhang Guojie Song PILM 81 0 0 04 Feb 2025
Different Bias Under Different Criteria: Assessing Bias in LLMs with a Fact-Based Approach Changgeon Ko Jisu Shin Hoyun Song Jeongyeon Seo Jong C. Park 74 0 0 26 Nov 2024
Evaluating the Prompt Steerability of Large Language Models Erik Miehling Michael Desmond K. Ramamurthy Elizabeth M. Daly Pierre L. Dognin Jesus Rios Djallel Bouneffouf Miao Liu LLMSV 89 3 0 19 Nov 2024
Adaptive Alignment: Dynamic Preference Adjustments via Multi-Objective Reinforcement Learning for Pluralistic AI Hadassah Harland Richard Dazeley Peter Vamplew Hashini Senaratne Bahareh Nakisa Francisco Cruz 42 2 0 31 Oct 2024
SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior Jing-Jing Li Valentina Pyatkin Max Kleiman-Weiner Liwei Jiang Nouha Dziri Anne Collins Jana Schaich Borg Maarten Sap Yejin Choi Sydney Levine 29 1 0 22 Oct 2024
Multi-objective Reinforcement Learning: A Tool for Pluralistic Alignment Peter Vamplew Conor F. Hayes Cameron Foale Richard Dazeley Hadassah Harland 43 0 0 15 Oct 2024
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements Jingyu Zhang Ahmed Elgohary Ahmed Magooda Daniel Khashabi Benjamin Van Durme 138 2 0 11 Oct 2024
Intuitions of Compromise: Utilitarianism vs. Contractualism Jared Moore Yejin Choi Sydney Levine 33 0 0 07 Oct 2024
Large Language Models can Achieve Social Balance Pedro Cisneros-Velarde 47 1 0 05 Oct 2024
DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life Yu Ying Chiu Liwei Jiang Yejin Choi 62 3 0 03 Oct 2024
Measuring Human and AI Values Based on Generative Psychometrics with Large Language Models Haoran Ye Yuhang Xie Yuanyi Ren Hanjun Fang Xin Zhang Guojie Song LM&MA 37 1 0 18 Sep 2024
Policy Prototyping for LLMs: Pluralistic Alignment via Interactive and Collaborative Policymaking K. J. Kevin Feng Inyoung Cheong Quan Ze Chen Amy X. Zhang 44 2 0 13 Sep 2024
Single Character Perturbations Break LLM Alignment Leon Lin Hannah Brown Kenji Kawaguchi Michael Shieh AAML 146 2 0 03 Jul 2024
Does Cross-Cultural Alignment Change the Commonsense Morality of Language Models? Yuu Jinnai 49 1 0 24 Jun 2024
Building Knowledge-Guided Lexica to Model Cultural Variation Shreya Havaldar Salvatore Giorgi Sunny Rai Thomas Talhelm Sharath Chandra Guntuku Lyle Ungar 40 5 0 17 Jun 2024
The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models Bolei Ma Xinpeng Wang Tiancheng Hu Anna Haensch Michael A. Hedderich Barbara Plank Frauke Kreuter ALM 37 2 0 16 Jun 2024
Collective Constitutional AI: Aligning a Language Model with Public Input Saffron Huang Divya Siddarth Liane Lovitt Thomas I. Liao Esin Durmus Alex Tamkin Deep Ganguli ELM 59 72 0 12 Jun 2024
Aligning to Thousands of Preferences via System Message Generalization Seongyun Lee Sue Hyun Park Seungone Kim Minjoon Seo ALM 41 38 0 28 May 2024
Annotation-Efficient Preference Optimization for Language Model Alignment Yuu Jinnai Ukyo Honda 42 0 0 22 May 2024
High-Dimension Human Value Representation in Large Language Models Samuel Cahyawijaya Delong Chen Yejin Bang Leila Khalatbari Bryan Wilie Ziwei Ji Etsuko Ishii Pascale Fung 71 5 0 11 Apr 2024
Towards Measuring and Modeling "Culture" in LLMs: A Survey Muhammad Farid Adilazuarda Sagnik Mukherjee Pradhyumna Lavania Siddhant Singh Alham Fikri Aji Jacki OÑeill Ashutosh Modi Monojit Choudhury 67 54 0 05 Mar 2024
Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarization Swaroop Nath Tejpalsingh Siledar Sankara Sri Raghava Ravindra Muddu Rupasai Rangaraju H. Khadilkar ... Suman Banerjee Amey Patil Sudhanshu Singh M. Chelliah Nikesh Garera 43 0 0 23 Feb 2024
DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection Herun Wan Shangbin Feng Zhaoxuan Tan Heng Wang Yulia Tsvetkov Minnan Luo 72 29 0 16 Feb 2024
Foundational Moral Values for AI Alignment Betty Hou Brian Patrick Green 27 0 0 28 Nov 2023
Value FULCRA: Mapping Large Language Models to the Multidimensional Spectrum of Basic Human Values Jing Yao Xiaoyuan Yi Xiting Wang Yifan Gong Xing Xie 30 21 0 15 Nov 2023
LLMs grasp morality in concept Mark Pock Andre Ye Jared Moore FaML 21 2 0 04 Nov 2023
Post Turing: Mapping the landscape of LLM Evaluation Alexey Tikhonov Ivan P. Yamshchikov ELM 48 4 0 03 Nov 2023
What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts and Rationales for Disambiguating Defeasible Social and Moral Situations Kavel Rao Liwei Jiang Valentina Pyatkin Yuling Gu Niket Tandon Nouha Dziri Faeze Brahman Yejin Choi 26 15 0 24 Oct 2023
Resolving Knowledge Conflicts in Large Language Models Yike Wang Shangbin Feng Heng Wang Weijia Shi Vidhisha Balachandran Tianxing He Yulia Tsvetkov 50 12 0 02 Oct 2023
Probing the Moral Development of Large Language Models through Defining Issues Test Kumar Tanmay Aditi Khandelwal Utkarsh Agarwal Monojit Choudhury LRM 8 14 0 23 Sep 2023
SCOTT: Self-Consistent Chain-of-Thought Distillation Jamie Yap Zhengyang Wang Zheng Li K. Lynch Bing Yin Xiang Ren LRM 61 93 0 03 May 2023
Learning Ambiguity from Crowd Sequential Annotations Xiaolei Lu 18 1 0 04 Jan 2023
Stop Measuring Calibration When Humans Disagree Joris Baan Wilker Aziz Barbara Plank Raquel Fernández 24 53 0 28 Oct 2022
A Human Rights-Based Approach to Responsible AI Vinodkumar Prabhakaran Margaret Mitchell Timnit Gebru Iason Gabriel 41 36 0 06 Oct 2022
Can Machines Learn Morality? The Delphi Experiment Liwei Jiang Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jenny T Liang ... Yulia Tsvetkov Oren Etzioni Maarten Sap Regina A. Rini Yejin Choi FaML 127 111 0 14 Oct 2021