MultiModalQA: Complex Question Answering over Text, Tables and Images

International Conference on Learning Representations (ICLR), 2021

13 April 2021

Papers citing "MultiModalQA: Complex Question Answering over Text, Tables and Images"

50 / 89 papers shown

Bridging the Modality Gap by Similarity Standardization with Pseudo-Positive Samples

Shuhei Yamashita

Daiki Shirafuji

Tatsuhiko Saito

27 Nov 2025

WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios

...

27 Nov 2025

CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

...

129

30 Oct 2025

Document Intelligence in the Era of Large Language Models: A Survey

203

15 Oct 2025

CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation

...

116

10 Oct 2025

Table Question Answering in the Era of Large Language Models: A Comprehensive Survey of Tasks, Methods, and Evaluation

176

08 Oct 2025

Memory-QA: Answering Recall Questions Based on Multimodal Memories

...

174

22 Sep 2025

Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

Boammani Aser Lompo

Marc Haraoui

LMTD ReLM VLM LRM

132

09 Sep 2025

Research on Multi-hop Inference Optimization of LLM Based on MQUAKE Framework

05 Sep 2025

CMRAG: Co-modality-based visual document retrieval and question answering

227

02 Sep 2025

Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs

Somraj Gautam

Abhirama Subramanyam Penamakuri

Abhishek Bhandari

Gaurav Harit

LMTD LRM

273

24 Aug 2025

MMAPG: A Training-Free Framework for Multimodal Multi-hop Question Answering via Adaptive Planning Graphs

140

22 Aug 2025

OMHBench: Benchmarking Balanced and Grounded Omni-Modal Multi-Hop Reasoning

126

22 Aug 2025

MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents

295

15 Aug 2025

AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning

Siminfar Samakoush Galougah

195

10 Aug 2025

Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning

Athanasios Voulodimos

LRM

138

01 Aug 2025

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

304

29 Jul 2025

Towards Multimodal Graph Large Language ModelScience China Information Sciences (Sci. China Inf. Sci.), 2025

225

11 Jun 2025

BioMol-MQA: A Multi-Modal Question Answering Dataset For LLM Reasoning Over Bio-Molecular Interactions

211

06 Jun 2025

MMTBENCH: A Unified Benchmark for Complex Multimodal Table Reasoning

Prasham Yatinkumar Titiya

238

27 May 2025

POQD: Performance-Oriented Query Decomposer for Multi-vector retrieval

331

25 May 2025

Abacus: A Cost-Based Optimizer for Semantic Operator Systems

362

20 May 2025

Towards Temporal-Aware Multi-Modal Retrieval Augmented Generation in Finance

374

07 Mar 2025

MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks

Saikrishna Sanniboina

395

25 Feb 2025

OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question AnsweringInternational Conference on Human Factors in Computing Systems (CHI), 2024

Jiahao Nick Li

Zhuohao Jerry Zhang

Zhang

431

24 Feb 2025

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Mohammad Mahdi Abootorabi

Amirhosein Zobeiri

Mahdi Dehghani

Mohammadali Mohammadkhani

726

12 Feb 2025

RAMQA: A Unified Framework for Retrieval-Augmented Multi-Modal Question AnsweringNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

276

23 Jan 2025

Multimodal Multihop Source Retrieval for Web Question Answering

Navya Yarrabelly

Saloni Mittal

154

07 Jan 2025

FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop ReasoningAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

464

17 Dec 2024

Dynamic Strategy Planning for Efficient Question Answering with Large Language Models

847

30 Oct 2024

Self-adaptive Multimodal Retrieval-Augmented Generation

Wenjia Zhai

VLM

203

15 Oct 2024

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal ModelsInternational Conference on Learning Representations (ICLR), 2024

Pan Lu

Kai-Wei Chang

Nanyun Peng

VLM

370

10 Oct 2024

MuRAR: A Simple and Effective Multimodal Retrieval and Answer Refinement Framework for Multimodal Question AnsweringInternational Conference on Computational Linguistics (COLING), 2024

Daniel Lee

Yunyao Li

189

16 Aug 2024

FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research

Jiajie Jin

Chenghao Zhang

Tong Zhao

Zhao Yang

Zhicheng Dou

Ji-Rong Wen

VLM

449

147

22 May 2024

RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning

...

184

19 Feb 2024

Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering

265

17 Feb 2024

Text-to-Image Cross-Modal Generation: A Systematic Review

Maciej Żelaszczyk

Jacek Mańdziuk

320

21 Jan 2024

MMToM-QA: Multimodal Theory of Mind Question AnsweringAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Joshua B. Tenenbaum

345

16 Jan 2024

DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text

Philip S. Yu

Yingbo Zhou

225

31 Oct 2023

Progressive Evidence Refinement for Open-domain Multimodal Retrieval Question Answering

Xingjiao Wu

221

15 Oct 2023

Through the Lens of Core Competency: Survey on Evaluation of Large Language ModelsChina National Conference on Chinese Computational Linguistics (CNCCL), 2023

197

15 Aug 2023

Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative InstructionsInternational Conference on Learning Representations (ICLR), 2023

Wei Ji

340

08 Aug 2023

DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AIFindings (Findings), 2023

Kun Qian

Huan Wang

Silvio Savarese

Caiming Xiong

309

19 Jul 2023

Read, Look or Listen? What's Needed for Solving a Multimodal Dataset

Netta Madvil

Yonatan Bitton

Roy Schwartz

216

06 Jul 2023

Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question AnsweringInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

167

29 Jun 2023

Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question AnsweringInternational Conference on the Theory of Information Retrieval (ICTIR), 2023

Alireza Salemi

Mahta Rafiee

Hamed Zamani

183

28 Jun 2023

Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical StudyWeb Search and Data Mining (WSDM), 2023

Yuan Sui

392

162

22 May 2023

A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from Linguistically Complex TextAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Yunxin Li

Baotian Hu

Yuxin Ding

Lin Ma

Hao Fei

216

03 May 2023

Answering Questions by Meta-Reasoning over Multiple Chains of ThoughtConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

352

121

25 Apr 2023

MPMQA: Multimodal Question Answering on Product ManualsAAAI Conference on Artificial Intelligence (AAAI), 2023

Liangfu Zhang

Anwen Hu

Jing Zhang

Shuo Hu

Qin Jin

198

19 Apr 2023