Title
Verify when Uncertain: Beyond Self-Consistency in Black Box Hallucination Detection Yihao Xue Kristjan Greenewald Youssef Mroueh Baharan Mirzasoleiman HILM 78 3 0 20 Feb 2025
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations Hadas Orgad Michael Toker Zorik Gekhman Roi Reichart Idan Szpektor Hadas Kotek Yonatan Belinkov HILM AIFin 85 37 0 03 Oct 2024
HaloScope: Harnessing Unlabeled LLM Generations for Hallucination Detection Xuefeng Du Chaowei Xiao Yixuan Li HILM 51 21 0 26 Sep 2024
Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators Matéo Mahaut Laura Aina Paula Czarnowska Momchil Hardalov Thomas Müller Lluís Marquez HILM 60 14 0 19 Jun 2024
InternalInspector $I^2$ : Robust Confidence Estimation in LLMs through Internal States Mohammad Beigi Ying Shen Runing Yang Zihao Lin Qifan Wang Ankith Mohan Jianfeng He Ming Jin Chang-Tien Lu Lifu Huang HILM 49 6 0 17 Jun 2024
PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics Derui Zhu Dingfan Chen Qing Li Zongxiong Chen Lei Ma Jens Grossklags Mario Fritz HILM 54 11 0 06 Apr 2024
INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection Chao Chen Kai-Chun Liu Ze Chen Yi Gu Yue-bo Wu Mingyuan Tao Zhihang Fu Jieping Ye HILM 92 95 0 06 Feb 2024
SAC3: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency Jiaxin Zhang Zhuohang Li Kamalika Das Bradley Malin Kumar Sricharan HILM LRM 30 59 0 03 Nov 2023
The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets Samuel Marks Max Tegmark HILM 112 199 0 10 Oct 2023
Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs Miao Xiong Zhiyuan Hu Xinyang Lu Yifei Li Jie Fu Junxian He Bryan Hooi 127 404 0 22 Jun 2023
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model Kenneth Li Oam Patel Fernanda Viégas Hanspeter Pfister Martin Wattenberg KELM HILM 83 528 0 06 Jun 2023
Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback Katherine Tian E. Mitchell Allan Zhou Archit Sharma Rafael Rafailov Huaxiu Yao Chelsea Finn Christopher D. Manning 86 316 0 24 May 2023
The Internal State of an LLM Knows When It's Lying A. Azaria Tom Michael Mitchell HILM 238 322 0 26 Apr 2023
Discovering Latent Knowledge in Language Models Without Supervision Collin Burns Haotian Ye Dan Klein Jacob Steinhardt 102 350 0 07 Dec 2022
Teaching Models to Express Their Uncertainty in Words Stephanie C. Lin Jacob Hilton Owain Evans OOD 51 401 0 28 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 484 3,486 0 21 Mar 2022
On Exposure Bias, Hallucination and Domain Shift in Neural Machine Translation Chaojun Wang Rico Sennrich 43 157 0 07 May 2020
ERNIE: Enhanced Language Representation with Informative Entities Zhengyan Zhang Xu Han Zhiyuan Liu Xin Jiang Maosong Sun Qun Liu 77 1,390 0 17 May 2019
Crowdsourcing Multiple Choice Science Questions Johannes Welbl Nelson F. Liu Matt Gardner AI4Ed 52 493 0 19 Jul 2017
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension Mandar Joshi Eunsol Choi Daniel S. Weld Luke Zettlemoyer RALM 173 2,610 0 09 May 2017