How Language Model Hallucinations Can Snowball

International Conference on Machine Learning (ICML), 2023

22 May 2023

Ofir Press

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "How Language Model Hallucinations Can Snowball"

50 / 120 papers shown

Title
Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats Jiaye Qian Ge Zheng Yuchen Zhu Sibei Yang MLLM 208 1 0 21 Nov 2025
When Bias Pretends to Be Truth: How Spurious Correlations Undermine Hallucination Detection in LLMs Shaowen Wang Yiqi Dong Ruinian Chang Tansheng Zhu Yuebo Sun Kaifeng Lyu Jian Li HILM 233 0 0 10 Nov 2025
The Gray Zone of Faithfulness: Taming Ambiguity in Unfaithfulness Detection Qiang Ding Lvzhou Luo Yixuan Cao Ping Luo HILM 334 0 0 24 Oct 2025
Why LVLMs Are More Prone to Hallucinations in Longer Responses: The Role of Context Ge Zheng Jiaye Qian Jiajin Tang Sibei Yang 86 2 0 23 Oct 2025
Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding Jinlin Li Y. X. R. Wang Yifei Yuan Xiao Zhou Y. Zhang Xixian Yong Yefeng Zheng X. Wu MLLM 139 0 0 21 Oct 2025
GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer Sayan Deb Sarkar Sinisa Stekovic Vincent Lepetit Iro Armeni DiffM 3DH 181 0 0 17 Oct 2025
CPR: Mitigating Large Language Model Hallucinations with Curative Prompt RefinementIEEE International Conference on Systems, Man and Cybernetics (SMC), 2024 Jung-Woo Shim Yeong-Joon Ju Ji-Hoon Park Seong-Whan Lee HILM LRM 172 0 0 14 Oct 2025
Bolster Hallucination Detection via Prompt-Guided Data Augmentation Wenyun Li Zheng Zhang Dongmei Jiang Xiangyuan Lan HILM 172 0 0 13 Oct 2025
The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers Saad Obaid ul Islam Anne Lauscher Goran Glavaš HILM 170 0 0 13 Oct 2025
Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models Gagan Bhatia Somayajulu G Sripada Kevin Allan Jacobo Azcona HILM LRM 262 0 0 07 Oct 2025
Large Language Models Hallucination: A Comprehensive Survey Aisha Alansari Hamzah Luqman HILM LRM 433 1 0 05 Oct 2025
Sample, Align, Synthesize: Graph-Based Response Synthesis with ConGrs Sayan Ghosh Shahzaib Saqib Warraich Dhruv Tarsadiya Gregory Yauney Swabha Swayamdipta 108 0 0 03 Oct 2025
ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs Adi Simhi Jonathan Herzig Martin Tutek Itay Itzhak Idan Szpektor Yonatan Belinkov LLMAG 88 0 0 01 Oct 2025
Knowledge-Level Consistency Reinforcement Learning: Dual-Fact Alignment for Long-Form Factuality Junliang Li Yucheng Wang Yan Chen Yu Ran Ruiqing Zhang Jing Liu H. Wu Haifeng Wang OffRL HILM 129 0 0 28 Sep 2025
Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow Xinlei Yu C. Xu Guibin Zhang Yongbo He Zhangquan Chen ... Jiangning Zhang Yue Liao Xiaobin Hu Yu-Gang Jiang Shuicheng Yan 217 3 0 26 Sep 2025
A Novel Differential Feature Learning for Effective Hallucination Detection and Classification Wenkai Wang Vincent C. S. Lee Yizhen Zheng 76 0 0 20 Sep 2025
Why Language Models Hallucinate Adam Tauman Kalai Ofir Nachum Santosh Vempala Edwin Zhang HILM LRM 285 70 0 04 Sep 2025
Evaluating the Robustness of Retrieval-Augmented Generation to Adversarial Evidence in the Health Domain Shakiba Amirshahi Amin Bigdeli Charles L. A. Clarke Amira Ghenai AAML 104 1 0 04 Sep 2025
Principled Detection of Hallucinations in Large Language Models via Multiple Testing Jiawei Li A. Magesh Venugopal V. Veeravalli HILM 216 0 0 25 Aug 2025
Exploring Causal Effect of Social Bias on Faithfulness Hallucinations in Large Language Models Zhenliang Zhang Junzhe Zhang Xinyu Hu Huixuan Zhang Xiaojun Wan HILM 148 0 0 11 Aug 2025
The Illusion of Progress: Re-evaluating Hallucination Detection in LLMs Denis Janiak Jakub Binkowski Albert Sawczyn Bogdan Gabrys Ravid Schwartz-Ziv Tomasz Kajdanowicz HILM 200 4 0 01 Aug 2025
Enhancing Hallucination Detection via Future Context J. H. Lee Cheonbok Park Hwiyeol Jo Jeonghoon Kim Joonsuk Park Kang Min Yoo HILM 88 0 0 28 Jul 2025
Hallucination Detection and Mitigation with Diffusion in Multi-Variate Time-Series Foundation Models Vijja Wichitwechkarn Charles Fox Ruchi Choudhary AI4TS 114 0 0 23 Jul 2025
Self-Correction Bench: Uncovering and Addressing the Self-Correction Blind Spot in Large Language Models Ken Tsui KELM LRM 164 1 0 03 Jul 2025
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality Baochang Ren Shuofei Qiao Da Zheng Huajun Chen Ningyu Zhang OffRL LRM 248 5 0 24 Jun 2025
Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation Jiahao Cheng Tiancheng Su Jia Yuan Guoxiu He Jiawei Liu Xinqi Tao Jingwen Xie Huaxia Li HILM LRM 288 8 0 20 Jun 2025
How Far Can Off-the-Shelf Multimodal Large Language Models Go in Online Episodic Memory Question Answering? Giuseppe Lando Rosario Forte G. Farinella Antonino Furnari KELM 97 0 0 19 Jun 2025
ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM Yujun Wang Aniri Jinhe Bi Soeren Pirk Yunpu Ma MLLM 292 11 0 17 Jun 2025
Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models Haoyi Song Ruihan Ji Naichen Shi Fan Lai Raed Al Kontar 286 1 0 11 Jun 2025
Conservative Bias in Large Language Models: Measuring Relation PredictionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Toyin Aguda Erik Wilson Allan Anzagira Simerjot Kaur Charese Smiley 144 0 0 09 Jun 2025
Simulating Society Requires Simulating Thought Chance Jiajie Li Jiayi Wu Zhenze Mo Ao Qu Yuhan Tang ... Jiangbo Yu Jinhua Zhao Paul Liang Luis Alonso Kent Larson LM&Ro LRM AI4CE 271 0 0 08 Jun 2025
Generating Grounded Responses to Counter Misinformation via Learning Efficient Fine-Grained CritiquesInternational Joint Conference on Artificial Intelligence (IJCAI), 2025 Xiaofei Xu Xiuzhen Zhang Ke Deng HILM 209 0 0 06 Jun 2025
Why do AI agents communicate in human language? Pengcheng Zhou Yinglun Feng Halimulati Julaiti Zhongliang Yang LLMAG 210 0 0 03 Jun 2025
How Does Response Length Affect Long-Form FactualityAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 James Xu Zhao Jimmy Z.J. Liu Bryan Hooi See-Kiong Ng HILM KELM 208 3 0 29 May 2025
IRCopilot: Automated Incident Response with Large Language Models Xihuan Lin Jie Zhang Gelei Deng Tianzhe Liu Xiaolong Liu Changcai Yang Minlie Huang 264 6 0 27 May 2025
Unraveling Misinformation Propagation in LLM Reasoning Yiyang Feng Yichen Wang Shaobo Cui Boi Faltings Mina Lee Jiawei Zhou LRM 238 2 0 24 May 2025
Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal DecodingComputer Vision and Pattern Recognition (CVPR), 2025 Feilong Tang Chengzhi Liu Zhongxing Xu Ming Hu Zelin Peng ... Minquan Lin Yifan Peng Xuelian Cheng Imran Razzak Zongyuan Ge 260 15 0 22 May 2025
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction Yuqing Yang Robin Jia KELM LRM 312 2 0 22 May 2025
Conformal Language Model Reasoning with Coherent FactualityInternational Conference on Learning Representations (ICLR), 2025 Maxon Rubin-Toles Maya Gambhir Keshav Ramji Aaron Roth Surbhi Goel HILM LRM 227 5 0 21 May 2025
The Hallucination Tax of Reinforcement Finetuning Linxin Song Taiwei Shi Jieyu Zhao HILM LRM 262 11 0 20 May 2025
Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Chengwei Qin Wenxuan Zhou Karthik Abinav Sankararaman Nanshu Wang Tengyu Xu ... Aditya Tayade Sinong Wang Shafiq Joty Han Fang Hao Ma HILM LRM 230 0 0 18 May 2025
Latent Veracity Inference for Identifying Errors in Stepwise Reasoning Minsu Kim Jean-Pierre Falet Oliver E. Richardson Xiaoyin Chen Moksh Jain Sungjin Ahn Sungsoo Ahn Yoshua Bengio KELM ReLM LRM 340 1 0 17 May 2025
Towards Contamination Resistant Benchmarks Rahmatullah Musawi Sheng Lu 376 0 0 13 May 2025
MAIN: Mutual Alignment Is Necessary for instruction tuning Fanyi Yang Jianfeng Liu Xinsong Zhang Haoyu Liu Xixin Cao Yuefeng Zhan H. Sun Weiwei Deng Feng Sun Qi Zhang ALM 157 0 0 17 Apr 2025
SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes Ananda Sreenidhi Timothee Mickus Elaine Zosa Teemu Vahtola Jörg Tiedemann ... Liane Guillou Ona de Gibert Jaione Bengoetxea Joseph Attieh Marianna Apidianaki HILM VLM LRM 332 7 0 16 Apr 2025
Exploring the Role of Knowledge Graph-Based RAG in Japanese Medical Question Answering with Small-Scale LLMs Yingjian Chen Feiyang Li Xingyu Song Tianxiao Li Zixin Xu Xiujie Chen Issey Sukeda Irene Li 453 0 0 15 Apr 2025
Toward Holistic Evaluation of Recommender Systems Powered by Generative ModelsAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025 Yashar Deldjoo Nikhil Mehta M. Sathiamoorthy Shuai Zhang Pablo Castells Julian McAuley EGVM ELM 354 9 0 09 Apr 2025
The Illusionist's Prompt: Exposing the Factual Vulnerabilities of Large Language Models with Linguistic Nuances Yining Wang Longji Xu Xi Li Mi Zhang Geng Hong Min Yang AAML HILM 226 1 0 01 Apr 2025
Rubrik's Cube: Testing a New Rubric for Evaluating Explanations on the CUBE datasetAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Diana Galván-Sosa Gabrielle Gaudeau Pride Kavumba Yunmeng Li Hongyi gu Zheng Yuan Keisuke Sakaguchi P. Buttery LRM 300 3 0 31 Mar 2025
FactSelfCheck: Fact-Level Black-Box Hallucination Detection for LLMs Albert Sawczyn Jakub Binkowski Denis Janiak Bogdan Gabrys Tomasz Kajdanowicz HILM LRM 401 4 0 21 Mar 2025