v1v2v3 (latest)

MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge

22 December 2024

Papers citing "MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge"

46 / 46 papers shown

Title
Beyond GeneGPT: A Multi-Agent Architecture with Open-Source LLMs for Enhanced Genomic Question Answering Haodong Chen Guido Zuccon Teerapong Leelanupab LLMAG 293 0 0 19 Nov 2025
Rationale-Augmented Retrieval with Constrained LLM Re-Ranking for Task Discovery Bowen Wei 96 0 0 01 Oct 2025
MIRAGE: Multi-hop Reasoning with Ambiguity Evaluation for Illusory Questions Jeonghyun Park Ingeol Baek Seunghyun Yoon Haeun Jang Aparna Garimella Akriti Jain Nedim Lipka Hwanhee Lee LRM 86 0 0 26 Sep 2025
KG-o1: Enhancing Multi-hop Question Answering in Large Language Models via Knowledge Graph Integration Nan Wang Yongqi Fan yansha zhu Zongyu Wang Xuezhi Cao Xinyan He Haiyun Jiang Tong Ruan Jingping Liu KELM RALM LRM 100 2 0 12 Aug 2025
CompoST: A Benchmark for Analyzing the Ability of LLMs To Compositionally Interpret Questions in a QALD Setting David Maria Schmidt Raoul Schubert Philipp Cimiano CoGe 252 0 0 28 Jul 2025
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering Bowen Jiang Runchuan Zhu Jiang Wu Zinco Jiang Yifan He ... Haote Yang Songyang Zhang Dahua Lin Lijun Wu Conghui He ELM 167 1 0 22 May 2025
InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation Yunjia Xi Jianghao Lin Menghui Zhu Yongzhao Xiao Zhuoying Ou ... Weiwen Liu Yasheng Wang Ruiming Tang Weinan Zhang Yong Yu 290 7 0 21 May 2025
Agent models: Internalizing Chain-of-Action Generation into Reasoning models Yuxiang Zhang Yuqi Yang Jiangming Shu Xinyan Wen Jitao Sang LRM LLMAG LM&Ro 224 11 0 09 Mar 2025
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning Huatong Song Jinhao Jiang Yingqian Min Jie Chen Zhongfu Chen Wayne Xin Zhao Lei Fang Ji-Rong Wen AI4TS LRM KELM 338 156 0 07 Mar 2025
Fine-Grained Evaluation for Implicit Discourse Relation Recognition Xinyi Cai 181 1 0 07 Mar 2025
SMART: Self-Aware Agent for Tool Overuse MitigationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Cheng Qian Emre Can Acikgoz Huaimin Wang Xiusi Chen Avirup Sil Dilek Hakkani-Tur Gokhan Tur Heng Ji LLMAG KELM LRM 441 29 0 17 Feb 2025
Meta-RTL: Reinforcement-Based Meta-Transfer Learning for Low-Resource Commonsense Reasoning Yu Fu Jie He Yifan Yang Qun Liu Deyi Xiong OffRL LRM 318 0 0 27 Sep 2024
Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language ModelsInternational Conference on Learning Representations (ICLR), 2024 Orion Weller Benjamin Van Durme Dawn J Lawrie Ashwin Paranjape Yuhao Zhang Jack Hessel LRM RALM 182 39 0 17 Sep 2024
Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering Zhengliang Shi Shuo Zhang Weiwei Sun Shen Gao Sudipta Singha Roy Zhumin Chen Zhaochun Ren RALM 268 63 0 21 Jun 2024
Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection Yun Zhu Jia-Chen Gu Caitlin Sikora Ho Ko Yinxiao Liu ... Lei Shu Liangchen Luo Lei Meng Bang Liu Jindong Chen RALM 181 25 0 25 May 2024
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone Marah Abdin Sam Ade Jacobs A. A. Awan J. Aneja Ahmed Hassan Awadallah ... Li Zhang Yi Zhang Yue Zhang Yunan Zhang Xiren Zhou LRM ALM 528 1,837 0 22 Apr 2024
Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity Soyeong Jeong Jinheon Baek Sukmin Cho Sung Ju Hwang Jong C. Park RALM 282 310 0 21 Mar 2024
RA-ISF: Learning to Answer and Understand from Retrieval Augmentation via Iterative Self-FeedbackAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Yanming Liu Xinyue Peng Xuhong Zhang Weihao Liu Jianwei Yin Jiannan Cao Tianyu Du RALM 198 60 0 11 Mar 2024
Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge Heydar Soudani Evangelos Kanoulas Faegheh Hasibi 256 78 0 03 Mar 2024
Retrieval Helps or Hurts? A Deeper Dive into the Efficacy of Retrieval Augmentation to Language Models Seiji Maekawa Hayate Iso Sairam Gurajada Nikita Bhutani RALM KELM 230 20 0 21 Feb 2024
When Do LLMs Need Retrieval Augmentation? Mitigating LLMs' Overconfidence Helps Retrieval Augmentation Shiyu Ni Keping Bi Jiafeng Guo Xueqi Cheng RALM 210 52 0 18 Feb 2024
LM-Cocktail: Resilient Tuning of Language Models via Model MergingAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Shitao Xiao Zheng Liu Peitian Zhang Xingrun Xing MoMe KELM 245 43 0 22 Nov 2023
Self-prompted Chain-of-Thought on Large Language Models for Open-domain Multi-hop Reasoning Jinyuan Wang Junlong Li Hai Zhao LRM ReLM 250 30 0 20 Oct 2023
FreshLLMs: Refreshing Large Language Models with Search Engine AugmentationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Tu Vu Mohit Iyyer Xuezhi Wang Noah Constant Jerry W. Wei ... Chris Tar Yun-hsuan Sung Denny Zhou Quoc Le Thang Luong KELM HILM LRM 468 287 0 05 Oct 2023
Efficient Memory Management for Large Language Model Serving with PagedAttentionSymposium on Operating Systems Principles (SOSP), 2023 Woosuk Kwon Zhuohan Li Siyuan Zhuang Ying Sheng Lianmin Zheng Cody Hao Yu Joseph E. Gonzalez Haotong Zhang Ion Stoica VLM 1.2K 3,953 0 12 Sep 2023
Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs?North American Chapter of the Association for Computational Linguistics (NAACL), 2023 Kai Sun Yongjun Xu Hanwen Zha Yue Liu Xinhsuai Dong AI4MH 356 187 0 20 Aug 2023
Large Language Models for Information Retrieval: A Survey Yutao Zhu Huaying Yuan Shuting Wang Jiongnan Liu Wenhan Liu Chenlong Deng Haonan Chen Zheng Liu Zhicheng Dou Ji-Rong Wen KELM 581 438 0 14 Aug 2023
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval AugmentationInternational Conference on Computational Linguistics (COLING), 2023 Ruiyang Ren Yuhao Wang Yingqi Qu Wayne Xin Zhao Qingbin Liu Hao Tian Huaqin Wu Ji-Rong Wen Haifeng Wang RALM KELM 296 165 0 20 Jul 2023
Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought FrameworkAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Ruochen Zhao Xingxuan Li Shafiq Joty Chengwei Qin Lidong Bing LRM KELM 203 195 0 05 May 2023
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric MemoriesAnnual Meeting of the Association for Computational Linguistics (ACL), 2022 Alex Troy Mallen Akari Asai Victor Zhong Rajarshi Das Daniel Khashabi Hannaneh Hajishirzi RALM HILM KELM 297 847 0 20 Dec 2022
One Embedder, Any Task: Instruction-Finetuned Text EmbeddingsAnnual Meeting of the Association for Computational Linguistics (ACL), 2022 Hongjin Su Weijia Shi Jungo Kasai Yizhong Wang Yushi Hu Mari Ostendorf Anuj Kumar Noah A. Smith Luke Zettlemoyer Tao Yu 250 384 0 19 Dec 2022
Large Language Models with Controllable Working MemoryAnnual Meeting of the Association for Computational Linguistics (ACL), 2022 Daliang Li A. S. Rawat Manzil Zaheer Xin Wang Michal Lukasik Andreas Veit Felix X. Yu Surinder Kumar KELM 250 196 0 09 Nov 2022
Mintaka: A Complex, Natural, and Multilingual Dataset for End-to-End Question AnsweringInternational Conference on Computational Linguistics (COLING), 2022 Priyanka Sen Alham Fikri Aji Amir Saffari LRM 240 89 0 04 Oct 2022
DecAF: Joint Decoding of Answers and Logical Forms for Question Answering over Knowledge BasesInternational Conference on Learning Representations (ICLR), 2022 Donghan Yu Shenmin Zhang Patrick Ng Henghui Zhu Alexander Hanbo Li Jun Wang Yiqun Hu William Wang Zhiguo Wang Bing Xiang 520 121 0 30 Sep 2022
Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question AnsweringInternational Conference on Computational Linguistics (COLING), 2022 Siyuan Wang Zhongyu Wei Zhihao Fan Tao Gui Xuanjing Huang LRM 185 9 0 22 Aug 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsNeural Information Processing Systems (NeurIPS), 2022 Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 2.1K 14,056 0 28 Jan 2022
Unsupervised Dense Information Retrieval with Contrastive Learning Gautier Izacard Mathilde Caron Lucas Hosseini Sebastian Riedel Piotr Bojanowski Armand Joulin Edouard Grave RALM 668 1,209 0 16 Dec 2021
Large Dual Encoders Are Generalizable Retrievers Jianmo Ni Chen Qu Jing Lu Zhuyun Dai Gustavo Hernández Ábrego ... Vincent Zhao Yi Luan Keith B. Hall Ming-Wei Chang Yinfei Yang DML 497 548 0 15 Dec 2021
MuSiQue: Multihop Questions via Single-hop Question Composition H. Trivedi Niranjan Balasubramanian Tushar Khot Ashish Sabharwal LRM 386 524 0 02 Aug 2021
Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of Reasoning StepsInternational Conference on Computational Linguistics (COLING), 2020 Xanh Ho A. Nguyen Saku Sugawara Akiko Aizawa RALM LRM 374 822 0 02 Nov 2020
A Survey of Knowledge-Enhanced Text GenerationACM Computing Surveys (ACM CSUR), 2020 Wenhao Yu Chenguang Zhu Zaitang Li Zhiting Hu Qingyun Wang Heng Ji Meng Jiang 321 315 0 09 Oct 2020
Answering Complex Open-Domain Questions with Multi-Hop Dense RetrievalInternational Conference on Learning Representations (ICLR), 2020 Wenhan Xiong Xiang Lorraine Li Srini Iyer Jingfei Du Patrick Lewis ... Yashar Mehdad Anuj Kumar Sebastian Riedel Douwe Kiela Barlas Oğuz 148 214 0 27 Sep 2020
Learning to Recover Reasoning Chains for Multi-Hop Question Answering via Cooperative Games Yufei Feng Mo Yu Wenhan Xiong Xiaoxiao Guo Junjie Huang Shiyu Chang Murray Campbell Michael A. Greenspan Xiao-Dan Zhu OffRL LRM 143 5 0 06 Apr 2020
Compositional Questions Do Not Necessitate Multi-hop ReasoningAnnual Meeting of the Association for Computational Linguistics (ACL), 2019 Sewon Min Eric Wallace Sameer Singh Matt Gardner Hannaneh Hajishirzi Luke Zettlemoyer 193 158 0 07 Jun 2019
On the Possibilities and Limitations of Multi-hop Reasoning Under Linguistic Imperfections Daniel Khashabi Erfan Sadeqi Azer Tushar Khot Ashish Sabharwal Dan Roth LRM 146 9 0 08 Jan 2019
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2018 Zhilin Yang Peng Qi Saizheng Zhang Yoshua Bengio William W. Cohen Ruslan Salakhutdinov Christopher D. Manning RALM 851 3,505 0 25 Sep 2018

All Papers

MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge

Papers citing "MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge"