RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models

31 December 2023

Tong Zhang

Papers citing "RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models"

50 / 63 papers shown

Title
Osiris: A Lightweight Open-Source Hallucination Detection System Alex Shan John Bauer Christopher D. Manning HILM VLM 40 0 0 07 May 2025
Benchmarking LLM Faithfulness in RAG with Evolving Leaderboards Manveer Singh Tamber F. S. Bao Chenyu Xu Ge Luo Suleman Kazi Minseok Bae Miaoran Li Ofer Mendelevitch Renyi Qu Jimmy J. Lin VLM 31 0 0 07 May 2025
UCSC at SemEval-2025 Task 3: Context, Models and Prompt Optimization for Automated Hallucination Detection in LLM Output Sicong Huang Jincheng He Shiyuan Huang Karthik Raja Anandan Arkajyoti Chakraborty Ian Lane HILM LRM 39 0 0 05 May 2025
HalluMix: A Task-Agnostic, Multi-Domain Benchmark for Real-World Hallucination Detection Deanna Emery Michael Goitia Freddie Vargus Iulia Neagu HILM VLM 56 0 0 01 May 2025
Information Retrieval in the Age of Generative AI: The RGB Model M. Garetto Alessandro Cornacchia Franco Galante Emilio Leonardi A. Nordio A. Tarable 107 0 0 29 Apr 2025
Conflicts in Texts: Data, Implications and Challenges Siyi Liu Dan Roth 108 0 0 28 Apr 2025
Grounded in Context: Retrieval-Based Method for Hallucination Detection Assaf Gerner Netta Madvil Nadav Barak Alex Zaikman Jonatan Liberman ... Yaron Friedman Neal Harow Noam Bresler Shir Chorev Philip Tannor HILM 22 0 0 22 Apr 2025
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents Nandan Thakur Jimmy J. Lin Sam Havens Michael Carbin Omar Khattab Andrew Drozdov 36 2 0 17 Apr 2025
A Library of LLM Intrinsics for Retrieval-Augmented Generation Marina Danilevsky Kristjan Greenewald Chulaka Gunasekara Maeda Hanafi Lihong He ... Frederick Reiss Vraj Shah Khoi-Nguyen Tran Huaiyu Zhu Luis A. Lastras 32 1 0 16 Apr 2025
SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes Raúl Vázquez Timothee Mickus Elaine Zosa Teemu Vahtola Jörg Tiedemann ... Liane Guillou Ona de Gibert Jaione Bengoetxea Joseph Attieh Marianna Apidianaki HILM VLM LRM 85 0 0 16 Apr 2025
Hallucination Detection in LLMs via Topological Divergence on Attention Graphs Alexandra Bazarova Aleksandr Yugay Andrey Shulga A. Ermilova Andrei Volodichev ... Dmitry Simakov M. Savchenko Andrey Savchenko Serguei Barannikov Alexey Zaytsev HILM 28 0 0 14 Apr 2025
DioR: Adaptive Cognitive Detection and Contextual Retrieval Optimization for Dynamic Retrieval-Augmented Generation Hanghui Guo Jia Zhu Shimin Di Weijie Shi Zhangze Chen Jiajie Xu 30 0 0 14 Apr 2025
HalluciNot: Hallucination Detection Through Context and Common Knowledge Verification Bibek Paudel Alexander Lyzhov Preetam Joshi Puneet Anand HILM 49 0 0 09 Apr 2025
Hallucination Detection using Multi-View Attention Features Yuya Ogasa Yuki Arase 26 0 0 06 Apr 2025
LRAGE: Legal Retrieval Augmented Generation Evaluation Tool Minhu Park Hongseok Oh Eunkyung Choi Wonseok Hwang AILaw RALM ELM 112 0 0 02 Apr 2025
An Analysis of Decoding Methods for LLM-based Agents for Faithful Multi-Hop Question Answering Alexander Murphy Mohd Sanad Zaki Rizvi Aden Haussmann Ping Nie Guifu Liu Aryo Pradipta Gema Pasquale Minervini 47 0 0 30 Mar 2025
OAEI-LLM-T: A TBox Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching Zhangcheng Qiang Kerry Taylor Weiqing Wang Jing Jiang 52 0 0 25 Mar 2025
Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings Austin Xu Srijan Bansal Yifei Ming Semih Yavuz Shafiq R. Joty ELM 95 3 0 19 Mar 2025
Battling Misinformation: An Empirical Study on Adversarial Factuality in Open-Source Large Language Models Shahnewaz Karim Sakib Anindya Bijoy Das Shibbir Ahmed AAML 58 1 0 12 Mar 2025
Human Cognition Inspired RAG with Knowledge Graph for Complex Problem Solving Yao Cheng Yibo Zhao Jiapeng Zhu Y. Liu X. Sun Xiang Li RALM ReLM 72 0 0 09 Mar 2025
Bián: A Bilingual Benchmark and Model for Hallucination Detection in Retrieval-Augmented Generation Zhouyu Jiang Mengshu Sun Zhiqiang Zhang Lei Liang RALM 3DV 203 0 0 26 Feb 2025
Evaluating the Effect of Retrieval Augmentation on Social Biases Tianhui Zhang Yi Zhou Danushka Bollegala 36 0 0 24 Feb 2025
LettuceDetect: A Hallucination Detection Framework for RAG Applications Adam Kovacs Gábor Recski 43 2 0 24 Feb 2025
What are Models Thinking about? Understanding Large Language Model Hallucinations "Psychology" through Model Inner State Analysis Peiran Wang Yang Liu Yunfei Lu Jue Hong Ye Wu HILM LRM 72 0 0 20 Feb 2025
Refine Knowledge of Large Language Models via Adaptive Contrastive Learning Yinghui Li Haojing Huang Jiayi Kuang Yangning Li Shu Guo C. Qu Xiaoyu Tan Hai-Tao Zheng Ying Shen Philip S. Yu CLL 66 5 0 11 Feb 2025
FactCG: Enhancing Fact Checkers with Graph-Based Multi-Hop Data Deren Lei Yaxi Li Siyao Li Mengya Hu Rui Xu Ken Archer Mingyu Wang Emily Ching Alex Deng SyDa HILM LRM 60 1 0 28 Jan 2025
Verify with Caution: The Pitfalls of Relying on Imperfect Factuality Metrics Ameya Godbole Robin Jia HILM 51 1 0 24 Jan 2025
ACORD: An Expert-Annotated Retrieval Dataset for Legal Contract Drafting Steven H. Wang Maksim Zubkov Kexin Fan Sarah Harrell Yuyang Sun Wei Chen Andreas Plesner Roger Wattenhofer AILaw 47 1 0 11 Jan 2025
Attention with Dependency Parsing Augmentation for Fine-Grained Attribution Qiang Ding Lvzhou Luo Yixuan Cao Ping Luo 74 0 0 16 Dec 2024
Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation S. Ramprasad Byron C. Wallace LLMAG HILM 87 2 0 25 Nov 2024
VERITAS: A Unified Approach to Reliability Evaluation Rajkumar Ramamurthy Meghana Arakkal Rajeev Oliver Molenschot James Y. Zou Nazneen Rajani HILM 41 1 0 05 Nov 2024
Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications Monica Riedler Stefan Langer VLM 36 12 0 29 Oct 2024
Improving Model Factuality with Fine-grained Critique-based Evaluator Yiqing Xie Wenxuan Zhou Pradyot Prakash Di Jin Yuning Mao ... Sinong Wang Han Fang Carolyn Rose Daniel Fried Hejia Zhang HILM 33 5 0 24 Oct 2024
FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs F. S. Bao Miaoran Li Renyi Qu Ge Luo Erana Wan ... Ruixuan Tu Chenyu Xu Matthew Gonzales Ofer Mendelevitch Amin Ahmad VLM HILM 23 2 0 17 Oct 2024
MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems Nandan Thakur Suleman Kazi Ge Luo Jimmy J. Lin Amin Ahmad VLM RALM 26 7 0 17 Oct 2024
ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability ZhongXiang Sun Xiaoxue Zang Kai Zheng Yang Song Jun Xu Xiao Zhang Weijie Yu Yang Song Han Li 55 7 0 15 Oct 2024
Bridging Today and the Future of Humanity: AI Safety in 2024 and Beyond Shanshan Han 73 1 0 09 Oct 2024
TLDR: Token-Level Detective Reward Model for Large Vision Language Models Deqing Fu Tong Xiao Rui Wang Wang Zhu Pengchuan Zhang Guan Pang Robin Jia Lawrence Chen 58 5 0 07 Oct 2024
Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval Pengcheng Jiang Cao Xiao Minhao Jiang Parminder Bhatia Taha A. Kass-Hout Jimeng Sun Jiawei Han RALM AI4MH 43 4 0 06 Oct 2024
Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval-Augmented Generation Tobias Leemann Periklis Petridis G. Vietri Dionysis Manousakas Aaron Roth Sergul Aydore 45 0 0 04 Oct 2024
AXCEL: Automated eXplainable Consistency Evaluation using LLMs P Aditya Sreekar Sahil Verma Suransh Chopra Sarik Ghazarian Abhishek Persad Narayanan Sadagopan LRM 21 0 0 25 Sep 2024
Direct Judgement Preference Optimization Peifeng Wang Austin Xu Yilun Zhou Caiming Xiong Shafiq Joty ELM 37 12 0 23 Sep 2024
THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models Mengfei Liang Archish Arun Zekun Wu Cristian Muñoz Jonathan Lutch Emre Kazim Adriano Soares Koshiyama Philip C. Treleaven HILM 30 0 0 17 Sep 2024
LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation Haichuan Hu Yuhan Sun Quanjun Zhang 35 4 0 28 Aug 2024
SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection Mengya Hu Rui Xu Deren Lei Yaxi Li Mingyu Wang Emily Ching Eslam Kamal Alex Deng 37 3 0 22 Aug 2024
LegalBench-RAG: A Benchmark for Retrieval-Augmented Generation in the Legal Domain Nicholas Pipitone Ghita Houir Alami AILaw RALM VLM ELM 29 23 0 19 Aug 2024
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework Kunlun Zhu Yifan Luo Dingling Xu Ruobing Wang Shi Yu ... Yishan Li Zhiyuan Liu Xu Han Zhiyuan Liu Maosong Sun 29 17 0 02 Aug 2024
Lynx: An Open Source Hallucination Evaluation Model Selvan Sunitha Ravi B. Mielczarek Anand Kannappan Douwe Kiela Rebecca Qian VLM RALM HILM 46 17 0 11 Jul 2024
Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective Yu-An Liu Ruqing Zhang Jiafeng Guo Maarten de Rijke Yixing Fan Xueqi Cheng 33 6 0 09 Jul 2024
Attention Instruction: Amplifying Attention in the Middle via Prompting Meiru Zhang Zaiqiao Meng Nigel Collier 43 4 0 24 Jun 2024