ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence

16 April 2024

Papers citing "ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence"

6 / 6 papers shown

Title
ConSens: Assessing context grounding in open-book question answering Ivan Vankov Matyo Ivanov Adriana Correia Victor Botev ELM 47 0 0 30 Apr 2025
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models Bang An Shiyue Zhang Mark Dredze 36 0 0 25 Apr 2025
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" Yifei Ming Senthil Purushwalkam Shrey Pandit Zixuan Ke Xuan-Phi Nguyen Caiming Xiong Shafiq R. Joty HILM 82 15 0 30 Sep 2024
Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large Language Models in Knowledge Conflicts Jian Xie Kai Zhang Jiangjie Chen Renze Lou Yu-Chuan Su RALM 184 75 0 22 May 2023
Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery Debadutta Dash Rahul Thapa Juan M. Banda Akshay Swaminathan Morgan Cheatham ... Garret K. Morris H. Magon M. Lungren Eric Horvitz N. Shah ELM LM&MA AI4MH 56 38 0 26 Apr 2023
Entity-Based Knowledge Conflicts in Question Answering Shayne Longpre Kartik Perisetla Anthony Chen Nikhil Ramesh Chris DuBois Sameer Singh HILM 224 177 0 10 Sep 2021