Title
Reasoning Capabilities and Invariability of Large Language Models Alessandro Raganato Rafael Peñaloza Marco Viviani G. Pasi ReLM LRM 77 0 0 01 May 2025
Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages Pritika Rohera Chaitrali Ginimav Gayatri Sawant Raviraj Joshi 21 0 0 28 Apr 2025
Testing Individual Fairness in Graph Neural Networks Roya Nasiri 17 0 0 25 Apr 2025
Span-Level Hallucination Detection for LLM-Generated Answers Passant Elchafei Mervet Abu-Elkheir HILM LRM 51 1 0 25 Apr 2025
Self-Memory Alignment: Mitigating Factual Hallucinations with Generalized Improvement Siyuan Zhang Y. Zhang Yinpeng Dong Hang Su HILM KELM 82 0 0 26 Feb 2025
SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models Peter Carragher Nikitha Rao Abhinand Jha R Raghav Kathleen M. Carley VLM 47 0 0 19 Feb 2025
Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators Dingkang Yang Dongling Xiao Jinjie Wei Mingcheng Li Zhaoyu Chen Ke Li L. Zhang HILM 90 3 0 28 Jan 2025
Probing-RAG: Self-Probing to Guide Language Models in Selective Document Retrieval Ingeol Baek Hwan Chang Byeongjeong Kim Jimin Lee Hwanhee Lee RALM 44 4 0 17 Oct 2024
Understanding the Interplay between Parametric and Contextual Knowledge for Large Language Models Sitao Cheng Liangming Pan Xunjian Yin Xinyi Wang William Yang Wang KELM 30 3 0 10 Oct 2024
Enabling Real-Time Conversations with Minimal Training Costs Wang Xu Shuo Wang Weilin Zhao Xu Han Yukun Yan Yudi Zhang Zhe Tao Zhiyuan Liu Wanxiang Che 14 4 0 18 Sep 2024
StruEdit: Structured Outputs Enable the Fast and Accurate Knowledge Editing for Large Language Models Baolong Bi Shenghua Liu Yiwei Wang Lingrui Mei Hongcheng Gao Junfeng Fang Xueqi Cheng KELM 18 8 0 16 Sep 2024
Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions Bo Xue Yi Xu Yunchong Song Yiming Pang Yuyang Ren Jiaxin Ding Luoyi Fu Xinbing Wang OffRL 39 1 0 13 Aug 2024
R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models Shangqing Tu Yuanchun Wang Jifan Yu Yuyang Xie Yaran Shi Xiaozhi Wang Jing Zhang Lei Hou Juanzi Li ELM 20 3 0 17 Jun 2024
Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching Xiaoying Zhang Baolin Peng Ye Tian Jingyan Zhou Yipeng Zhang Haitao Mi H. Meng CLL KELM 62 5 0 10 Jun 2024
Recall Them All: Retrieval-Augmented Language Models for Long Object List Extraction from Long Documents Sneha Singhania Simon Razniewski G. Weikum RALM 34 1 0 04 May 2024
From Matching to Generation: A Survey on Generative Information Retrieval Xiaoxi Li Jiajie Jin Yujia Zhou Yuyao Zhang Peitian Zhang Yutao Zhu Zhicheng Dou 3DV 54 36 0 23 Apr 2024
Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs Xiaoze Liu Feijie Wu Tianyang Xu Zhuo Chen Yichi Zhang Xiaoqian Wang Jing Gao HILM 33 8 0 01 Apr 2024
Improving Sequential Recommendations with LLMs Artun Boz Wouter Zorgdrager Zoe Kotti Jesse Harte Panos Louridas Dietmar Jannach Vassilios Karakoidas Marios Fragkoulis KELM LRM 50 4 0 02 Feb 2024
Hallucination is Inevitable: An Innate Limitation of Large Language Models Ziwei Xu Sanjay Jain Mohan S. Kankanhalli HILM LRM 57 192 0 22 Jan 2024
A Survey of the Evolution of Language Model-Based Dialogue Systems Hongru Wang Lingzhi Wang Yiming Du Liang Chen Jing Zhou Yufei Wang Kam-Fai Wong LRM 44 20 0 28 Nov 2023
Investigating the Catastrophic Forgetting in Multimodal Large Language Models Yuexiang Zhai Shengbang Tong Xiao Li Mu Cai Qing Qu Yong Jae Lee Y. Ma VLM MLLM CLL 66 75 0 19 Sep 2023
Summarization is (Almost) Dead Xiao Pu Mingqi Gao Xiaojun Wan HILM 61 38 0 18 Sep 2023
On the Risk of Misinformation Pollution with Large Language Models Yikang Pan Liangming Pan Wenhu Chen Preslav Nakov Min-Yen Kan W. Wang DeLMO 188 105 0 23 May 2023
How Language Model Hallucinations Can Snowball Muru Zhang Ofir Press William Merrill Alisa Liu Noah A. Smith HILM LRM 75 246 0 22 May 2023
"According to ...": Prompting Language Models Improves Quoting from Pre-Training Data Orion Weller Marc Marone Nathaniel Weir Dawn J Lawrie Daniel Khashabi Benjamin Van Durme HILM 61 44 0 22 May 2023
Huatuo-26M, a Large-scale Chinese Medical QA Dataset Jianquan Li Xidong Wang Xiangbo Wu Zhiyi Zhang Xiaolong Xu Jie Fu Prayag Tiwari Xiang Wan Benyou Wang LM&MA 63 40 0 02 May 2023
Dissecting Recall of Factual Associations in Auto-Regressive Language Models Mor Geva Jasmijn Bastings Katja Filippova Amir Globerson KELM 189 260 0 28 Apr 2023
We're Afraid Language Models Aren't Modeling Ambiguity Alisa Liu Zhaofeng Wu Julian Michael Alane Suhr Peter West Alexander Koller Swabha Swayamdipta Noah A. Smith Yejin Choi 51 87 0 27 Apr 2023
The Internal State of an LLM Knows When It's Lying A. Azaria Tom Michael Mitchell HILM 210 297 0 26 Apr 2023
ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge Yunxiang Li Zihan Li Kai Zhang Ruilong Dan Steven Jiang You Zhang LM&MA AI4MH 114 366 0 24 Mar 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 197 2,232 0 22 Mar 2023
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models Potsawee Manakul Adian Liusie Mark J. F. Gales HILM LRM 145 386 0 15 Mar 2023
Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of the Question Answering Performance of the GPT LLM Family Yiming Tan Dehai Min Y. Li Wenbo Li Nan Hu Yongrui Chen Guilin Qi AI4MH ELM 47 51 0 14 Mar 2023
Almanac: Retrieval-Augmented Language Models for Clinical Medicine C. Zakka Akash Chaurasia R. Shad Alex R. Dalal Jennifer L. Kim ... Kathleen Boyd Karen Hirsch C. Langlotz Joanna Nelson W. Hiesinger LM&MA 91 135 0 01 Mar 2023
Rethinking with Retrieval: Faithful Large Language Model Inference Hangfeng He Hongming Zhang Dan Roth KELM LRM 138 151 0 31 Dec 2022
Calibrating Factual Knowledge in Pretrained Language Models Qingxiu Dong Damai Dai Yifan Song Jingjing Xu Zhifang Sui Lei Li KELM 219 81 0 07 Oct 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 240 1,070 0 05 Oct 2022
Mintaka: A Complex, Natural, and Multilingual Dataset for End-to-End Question Answering Priyanka Sen Alham Fikri Aji Amir Saffari LRM 97 42 0 04 Oct 2022
Generate rather than Retrieve: Large Language Models are Strong Context Generators W. Yu Dan Iter Shuohang Wang Yichong Xu Mingxuan Ju Soumya Sanyal Chenguang Zhu Michael Zeng Meng-Long Jiang RALM AIMat 210 318 0 21 Sep 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 198 1,089 0 20 Sep 2022
SKILL: Structured Knowledge Infusion for Large Language Models Fedor Moiseev Zhe Dong Enrique Alfonseca Martin Jaggi KELM 50 57 0 17 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
Teaching language models to support answers with verified quotes Jacob Menick Maja Trebacz Vladimir Mikulik John Aslanides Francis Song ... Mia Glaese Susannah Young Lucy Campbell-Gillingham G. Irving Nat McAleese ELM RALM 218 204 0 21 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Fast Model Editing at Scale E. Mitchell Charles Lin Antoine Bosselut Chelsea Finn Christopher D. Manning KELM 219 254 0 21 Oct 2021
Entity-Based Knowledge Conflicts in Question Answering Shayne Longpre Kartik Perisetla Anthony Chen Nikhil Ramesh Chris DuBois Sameer Singh HILM 233 236 0 10 Sep 2021
Hallucinated but Factual! Inspecting the Factuality of Hallucinations in Abstractive Summarization Mengyao Cao Yue Dong Jackie C.K. Cheung HILM 170 144 0 30 Aug 2021
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 234 447 0 14 Jul 2021
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies Mor Geva Daniel Khashabi Elad Segal Tushar Khot Dan Roth Jonathan Berant RALM 242 460 0 06 Jan 2021