Large Pre-trained Language Models Contain Human-like Biases of What is Right and Wrong to Do

8 March 2021

Papers citing "Large Pre-trained Language Models Contain Human-like Biases of What is Right and Wrong to Do"

32 / 32 papers shown

Title
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors Ren-Wei Liang Chin-Ting Hsu Chan-Hung Yu Saransh Agrawal Shih-Cheng Huang Shang-Tse Chen Kuan-Hao Huang Shao-Hua Sun 76 0 0 27 Apr 2025
The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach Chad Coleman W. Russell Neuman Ali Dasdan Safinah Ali Manan Shah ELM LRM 38 0 0 27 Apr 2025
Spontaneous Giving and Calculated Greed in Language Models Yuxuan Li Hirokazu Shirado ReLM LRM AI4CE 38 0 0 24 Feb 2025
Moral Alignment for LLM Agents Elizaveta Tennant Stephen Hailes Mirco Musolesi 40 0 0 02 Oct 2024
GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models Kunsheng Tang Wenbo Zhou Jie Zhang Aishan Liu Gelei Deng Shuai Li Peigui Qi Weiming Zhang Tianwei Zhang Nenghai Yu 37 3 0 22 Aug 2024
Generative Artificial Intelligence-Guided User Studies: An Application for Air Taxi Services Shengdi Xiao Jingjing Li Tatsuki Fushimi Yoichi Ochiai 29 0 0 18 Jun 2024
Random Silicon Sampling: Simulating Human Sub-Population Opinion Using a Large Language Model Based on Group-Level Demographic Information Seungjong Sun Eungu Lee Dongyan Nan Xiangying Zhao Wonbyung Lee Bernard J. Jansen Jang Hyun Kim 46 17 0 28 Feb 2024
Uncovering Latent Human Wellbeing in Language Model Embeddings Pedro Freire ChengCheng Tan Adam Gleave Dan Hendrycks Scott Emmons 30 1 0 19 Feb 2024
When Large Language Models Meet Evolutionary Algorithms: Potential Enhancements and Challenges Wang Chao Jiaxuan Zhao Licheng Jiao Lingling Li Fang Liu Shuyuan Yang 61 13 0 19 Jan 2024
Large Language Models in Education: Vision and Opportunities Wensheng Gan Zhenlian Qi Jiayang Wu Chun-Wei Lin AI4Ed 36 69 0 22 Nov 2023
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts Yunshi Lan Xiang Li Xin Liu Yang Li Wei Qin Weining Qian LRM ReLM 23 23 0 15 Nov 2023
Gesture-Informed Robot Assistance via Foundation Models Li-Heng Lin Yuchen Cui Yilun Hao Fei Xia Dorsa Sadigh LM&Ro SLR 13 19 0 06 Sep 2023
FairMonitor: A Four-Stage Automatic Framework for Detecting Stereotypes and Biases in Large Language Models Yanhong Bai Jiabao Zhao Jinxin Shi Tingjiang Wei Xingjiao Wu Liangbo He 33 0 0 21 Aug 2023
ChatGPT in the Age of Generative AI and Large Language Models: A Concise Survey S. Mohamadi G. Mujtaba Ngan Le Gianfranco Doretto Don Adjeroh LM&MA AI4MH 21 21 0 09 Jul 2023
Personality Traits in Large Language Models Gregory Serapio-García Mustafa Safdari Clément Crepy Luning Sun Stephen Fitz P. Romero Marwa Abdulhai Aleksandra Faust Maja J. Matarić LM&MA LLMAG 55 119 0 01 Jul 2023
An Invariant Learning Characterization of Controlled Text Generation Carolina Zheng Claudia Shi Keyon Vafa Amir Feder David M. Blei OOD 18 8 0 31 May 2023
Having Beer after Prayer? Measuring Cultural Bias in Large Language Models Tarek Naous Michael Joseph Ryan Alan Ritter Wei-ping Xu 24 84 0 23 May 2023
Data Redaction from Conditional Generative Models Zhifeng Kong Kamalika Chaudhuri KELM 16 7 0 18 May 2023
Meta-Learned Models of Cognition Marcel Binz Ishita Dasgupta A. Jagadish M. Botvinick Jane X. Wang Eric Schulz 26 23 0 12 Apr 2023
A Data Fusion Framework for Multi-Domain Morality Learning Siyi Guo Negar Mokhberian Kristina Lerman FedML 33 24 0 04 Apr 2023
ChatGPT: Jack of all trades, master of none Jan Kocoñ Igor Cichecki Oliwier Kaszyca Mateusz Kochanek Dominika Szydło ... Maciej Piasecki Lukasz Radliñski Konrad Wojtasik Stanislaw Wo'zniak Przemyslaw Kazienko AI4MH 15 524 0 21 Feb 2023
Explainable AI does not provide the explanations end-users are asking for Savio Rozario G. Cevora XAI 10 0 0 25 Jan 2023
Inaccessible Neural Language Models Could Reinvigorate Linguistic Nativism Patrick Perrine 21 0 0 12 Jan 2023
The Turing Deception David A. Noever Matt Ciolino DeLMO ELM LRM 51 9 0 09 Dec 2022
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models P. Schramowski Manuel Brack Bjorn Deiseroth Kristian Kersting 37 269 0 09 Nov 2022
Revision Transformers: Instructing Language Models to Change their Values Felix Friedrich Wolfgang Stammer P. Schramowski Kristian Kersting KELM 21 6 0 19 Oct 2022
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks Nikil Selvam Sunipa Dev Daniel Khashabi Tushar Khot Kai-Wei Chang ALM 11 25 0 18 Oct 2022
Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective Ping Yang Junjie Wang Ruyi Gan Xinyu Zhu Lin Zhang Ziwei Wu Xinyu Gao Jiaxing Zhang Tetsuya Sakai BDL 14 25 0 16 Oct 2022
Towards No.1 in CLUE Semantic Matching Challenge: Pre-trained Language Model Erlangshen with Propensity-Corrected Loss Junjie Wang Yuxiang Zhang Ping Yang Ruyi Gan 11 2 0 05 Aug 2022
Using cognitive psychology to understand GPT-3 Marcel Binz Eric Schulz ELM LLMAG 242 439 0 21 Jun 2022
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 406 2,584 0 03 Sep 2019
From Frequency to Meaning: Vector Space Models of Semantics Peter D. Turney Patrick Pantel 82 2,978 0 04 Mar 2010