TruthfulQA: Measuring How Models Mimic Human Falsehoods

8 September 2021

Papers citing "TruthfulQA: Measuring How Models Mimic Human Falsehoods"

50 / 263 papers shown

Title
Quite Good, but Not Enough: Nationality Bias in Large Language Models -- A Case Study of ChatGPT Shucheng Zhu Weikang Wang Ying Liu 29 5 0 11 May 2024
Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models Chakshu Moar Michael Pellauer Hyoukjun Kwon 25 1 0 10 May 2024
NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli Xu Wang Cheng-rong Li Yi-Ju Chang Jindong Wang Yuan Wu 33 7 0 05 May 2024
HFT: Half Fine-Tuning for Large Language Models Tingfeng Hui Zhenyu Zhang Shuohuan Wang Weiran Xu Yu Sun Hua-Hong Wu CLL 37 4 0 29 Apr 2024
SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning Jinghan Jia Yihua Zhang Yimeng Zhang Jiancheng Liu Bharat Runwal James Diffenderfer B. Kailkhura Sijia Liu MU 24 32 0 28 Apr 2024
From Matching to Generation: A Survey on Generative Information Retrieval Xiaoxi Li Jiajie Jin Yujia Zhou Yuyao Zhang Peitian Zhang Yutao Zhu Zhicheng Dou 3DV 67 45 0 23 Apr 2024
Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks Amir Saeidi Shivanshu Verma Chitta Baral Chitta Baral ALM 30 22 0 23 Apr 2024
CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment Geyu Lin Bin Wang Zhengyuan Liu Nancy F. Chen 32 7 0 18 Apr 2024
When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models Yanhong Li Chenghao Yang Allyson Ettinger ReLM LRM LLMAG 26 6 0 14 Apr 2024
Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward Xuan Xie Jiayang Song Zhehua Zhou Yuheng Huang Da Song Lei Ma OffRL 35 6 0 12 Apr 2024
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety Paul Röttger Fabio Pernisi Bertie Vidgen Dirk Hovy ELM KELM 58 30 0 08 Apr 2024
Automating Research Synthesis with Domain-Specific Large Language Model Fine-Tuning Teo Susnjak Peter Hwang N. Reyes A. Barczak Timothy R. McIntosh Surangika Ranathunga 55 22 0 08 Apr 2024
Multicalibration for Confidence Scoring in LLMs Gianluca Detommaso Martín Bertrán Riccardo Fogliato Aaron Roth 24 12 0 06 Apr 2024
Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data Jingyu Zhang Marc Marone Tianjian Li Benjamin Van Durme Daniel Khashabi 85 9 0 05 Apr 2024
PRobELM: Plausibility Ranking Evaluation for Language Models Moy Yuan Chenxi Whitehouse Eric Chamoun Rami Aly Andreas Vlachos 81 4 0 04 Apr 2024
Evalverse: Unified and Accessible Library for Large Language Model Evaluation Jihoo Kim Wonho Song Dahyun Kim Yunsu Kim Yungi Kim Chanjun Park ELM 61 3 0 01 Apr 2024
Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs Xiaoze Liu Feijie Wu Tianyang Xu Zhuo Chen Yichi Zhang Xiaoqian Wang Jing Gao HILM 33 8 0 01 Apr 2024
Hallucination Detection in Foundation Models for Decision-Making: A Flexible Definition and Review of the State of the Art Neeloy Chakraborty Melkior Ornik Katherine Driggs-Campbell LRM 57 9 0 25 Mar 2024
Arcee's MergeKit: A Toolkit for Merging Large Language Models Charles Goddard Shamane Siriwardhana Malikeh Ehghaghi Luke Meyers Vladimir Karpukhin Brian Benedict Mark McQuade Jacob Solawetz MoMe KELM 80 76 0 20 Mar 2024
Specification Overfitting in Artificial Intelligence Benjamin Roth Pedro Henrique Luz de Araujo Yuxi Xia Saskia Kaltenbrunner Christoph Korab 56 0 0 13 Mar 2024
SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression Xin Wang Yu Zheng Zhongwei Wan Mi Zhang MQ 55 43 0 12 Mar 2024
On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models Xinpeng Wang Shitong Duan Xiaoyuan Yi Jing Yao Shanlin Zhou Zhihua Wei Peng Zhang Dongkuan Xu Maosong Sun Xing Xie OffRL 33 16 0 07 Mar 2024
A Language Model's Guide Through Latent Space Dimitri von Rutte Sotiris Anagnostidis Gregor Bachmann Thomas Hofmann 35 21 0 22 Feb 2024
SaGE: Evaluating Moral Consistency in Large Language Models Vamshi Bonagiri Sreeram Vennam Priyanshul Govil Ponnurangam Kumaraguru Manas Gaur ELM 46 0 0 21 Feb 2024
Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning Zhaorui Yang Tianyu Pang H. Feng Han Wang Wei Chen Minfeng Zhu Qian Liu ALM 29 34 0 21 Feb 2024
Machine-Generated Text Localization Zhongping Zhang Wenda Qin Bryan A. Plummer DeLMO 34 4 0 19 Feb 2024
Self-seeding and Multi-intent Self-instructing LLMs for Generating Intent-aware Information-Seeking dialogs Arian Askari Roxana Petcu Chuan Meng Mohammad Aliannejadi Amin Abolghasemi Evangelos Kanoulas Suzan Verberne 21 8 0 18 Feb 2024
Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning Ming Li Lichang Chen Jiuhai Chen Shwai He Jiuxiang Gu Tianyi Zhou 21 50 0 15 Feb 2024
Reinforcement Learning from Human Feedback with Active Queries Kaixuan Ji Jiafan He Quanquan Gu 13 17 0 14 Feb 2024
Large Language Models: A Survey Shervin Minaee Tomáš Mikolov Narjes Nikzad M. Asgari-Chenaghlu R. Socher Xavier Amatriain Jianfeng Gao ALM LM&MA ELM 120 353 0 09 Feb 2024
Machine Unlearning in Large Language Models Kongyang Chen Zixin Wang Bing Mi Waixi Liu Shaowei Wang Xiaojun Ren Jiaxing Shen MU 24 11 0 03 Feb 2024
Hallucination is Inevitable: An Innate Limitation of Large Language Models Ziwei Xu Sanjay Jain Mohan S. Kankanhalli HILM LRM 60 205 0 22 Jan 2024
Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models Rima Hazra Sayan Layek Somnath Banerjee Soujanya Poria KELM 26 17 0 19 Jan 2024
The Earth is Flat? Unveiling Factual Errors in Large Language Models Wenxuan Wang Juluan Shi Zhaopeng Tu Youliang Yuan Jen-tse Huang Wenxiang Jiao Michael R. Lyu KELM HILM SyDa 42 1 0 01 Jan 2024
Reasons to Reject? Aligning Language Models with Judgments Weiwen Xu Deng Cai Zhisong Zhang Wai Lam Shuming Shi ALM 16 14 0 22 Dec 2023
Rethinking the Instruction Quality: LIFT is What You Need Yang Xu Yongqiang Yao Yufan Huang Mengnan Qi Maoquan Wang Bin Gu Neel Sundaresan ALM 19 32 0 12 Dec 2023
EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism Yanxi Chen Xuchen Pan Yaliang Li Bolin Ding Jingren Zhou LRM 21 31 0 08 Dec 2023
Is Bigger and Deeper Always Better? Probing LLaMA Across Scales and Layers Nuo Chen Ning Wu Shining Liang Ming Gong Linjun Shou Dongmei Zhang Jia Li LRM 13 9 0 07 Dec 2023
Inherent limitations of LLMs regarding spatial information He Yan Xinyao Hu Xiangpeng Wan Chengyu Huang Kai Zou Shiqi Xu LRM 28 2 0 05 Dec 2023
ArcMMLU: A Library and Information Science Benchmark for Large Language Models Shitou Zhang Zuchao Li Xingshen Liu Liming Yang Ping Wang ELM 11 0 0 30 Nov 2023
Universal Self-Consistency for Large Language Model Generation Xinyun Chen Renat Aksitov Uri Alon Jie Jessie Ren Kefan Xiao Pengcheng Yin Sushant Prakash Charles Sutton Xuezhi Wang Denny Zhou LRM 24 65 0 29 Nov 2023
Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization Zhiyuan Zhao Bin Wang Linke Ouyang Xiao-wen Dong Jiaqi Wang Conghui He MLLM VLM 32 105 0 28 Nov 2023
Exploring the Robustness of Model-Graded Evaluations and Automated Interpretability Simon Lermen Ondvrej Kvapil ELM AAML 18 3 0 26 Nov 2023
Calibrated Language Models Must Hallucinate Adam Tauman Kalai Santosh Vempala HILM 13 75 0 24 Nov 2023
Compositional Capabilities of Autoregressive Transformers: A Study on Synthetic, Interpretable Tasks Rahul Ramesh Ekdeep Singh Lubana Mikail Khona Robert P. Dick Hidenori Tanaka CoGe 27 6 0 21 Nov 2023
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning Han Guo P. Greengard Eric P. Xing Yoon Kim MQ 28 43 0 20 Nov 2023
FinanceBench: A New Benchmark for Financial Question Answering Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen RALM 19 71 0 20 Nov 2023
R-Tuning: Instructing Large Language Models to Say `I Don't Know' Hanning Zhang Shizhe Diao Yong Lin Yi Ren Fung Qing Lian Xingyao Wang Yangyi Chen Heng Ji Tong Zhang UQLM 32 36 0 16 Nov 2023
JAB: Joint Adversarial Prompting and Belief Augmentation Ninareh Mehrabi Palash Goyal Anil Ramakrishna Jwala Dhamala Shalini Ghosh Richard Zemel Kai-Wei Chang Aram Galstyan Rahul Gupta AAML 20 7 0 16 Nov 2023
How Well Do Large Language Models Truly Ground? Hyunji Lee Se June Joo Chaeeun Kim Joel Jang Doyoung Kim Kyoung-Woon On Minjoon Seo HILM 21 6 0 15 Nov 2023