SaGE: Evaluating Moral Consistency in Large Language Models

21 February 2024

Papers citing "SaGE: Evaluating Moral Consistency in Large Language Models"

4 / 4 papers shown

Title
Evaluating Superhuman Models with Consistency Checks Lukas Fluri Daniel Paleka Florian Tramèr ELM 29 23 0 16 Jun 2023
A Word on Machine Ethics: A Response to Jiang et al. (2021) Zeerak Talat Hagen Blix Josef Valvoda M. I. Ganesh Ryan Cotterell Adina Williams SyDa FaML 83 37 0 07 Nov 2021
Can Machines Learn Morality? The Delphi Experiment Liwei Jiang Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jenny T Liang ... Yulia Tsvetkov Oren Etzioni Maarten Sap Regina A. Rini Yejin Choi FaML 110 110 0 14 Oct 2021
Measuring and Improving Consistency in Pretrained Language Models Yanai Elazar Nora Kassner Shauli Ravfogel Abhilasha Ravichander Eduard H. Hovy Hinrich Schütze Yoav Goldberg HILM 252 273 0 01 Feb 2021