v1v2v3 (latest)

DocVQA: A Dataset for VQA on Document Images

1 July 2020

Minesh Mathew

Dimosthenis Karatzas

C. V. Jawahar

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "DocVQA: A Dataset for VQA on Document Images"

50 / 759 papers shown

GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning

Abhigya Verma

Sriram Puttagunta

Seganrasan Subramanian

Sravan Ramachandran

128

21 Aug 2025

DocHop-QA: Towards Multi-Hop Reasoning over Multimodal Document Collections

20 Aug 2025

AdaDocVQA: Adaptive Framework for Long Document Visual Question Answering in Low-Resource Settings

19 Aug 2025

Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation

104

18 Aug 2025

LangVision-LoRA-NAS: Neural Architecture Search for Variable LoRA Rank in Vision Language ModelsInternational Conference on Information Photonics (ICIP), 2025

Krishna Teja Chitty-Venkata

M. Emani

V. Vishwanath

VLM

17 Aug 2025

Simple o3: Towards Interleaved Vision-Language Reasoning

152

16 Aug 2025

Ovis2.5 Technical Report

...

135

15 Aug 2025

Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps

142

15 Aug 2025

A Study of Commonsense Reasoning over Visual Object Properties

Abhishek Kolari

Mohammadhossein Khojasteh

209

14 Aug 2025

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

...

307

14 Aug 2025

MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models

182

13 Aug 2025

AgriGPT: a Large Language Model Ecosystem for Agriculture

...

216

12 Aug 2025

DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding

12 Aug 2025

Segmenting and Understanding: Region-aware Semantic Attention for Fine-grained Image Quality Assessment with Large Language Models

112

11 Aug 2025

MolmoAct: Action Reasoning Models that can Reason in Space

...

437

11 Aug 2025

VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding

170

10 Aug 2025

DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding

193

10 Aug 2025

AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning

Siminfar Samakoush Galougah

181

10 Aug 2025

Finding Needles in Images: Can Multimodal LLMs Locate Fine Details?Annual Meeting of the Association for Computational Linguistics (ACL), 2025

Chaitanya Devaguptapu

07 Aug 2025

VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization

132

07 Aug 2025

VER-Bench: Evaluating MLLMs on Reasoning with Fine-Grained Visual Evidence

Chenhui Qiang

Zhaoyang Wei

Xumeng Han Zipeng Wang

06 Aug 2025

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

145

05 Aug 2025

Visual Document Understanding and Reasoning: A Multi-Agent Collaboration Framework with Agent-Wise Adaptive Test-Time Scaling

186

05 Aug 2025

VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation

126

05 Aug 2025

Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning

Athanasios Voulodimos

LRM

132

01 Aug 2025

MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic SpacesInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

182

29 Jul 2025

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

...

172

29 Jul 2025

MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

273

29 Jul 2025

On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey

253

28 Jul 2025

METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models

152

28 Jul 2025

Multi-Agent Interactive Question Generation Framework for Long Document Understanding

Kesen Wang

Daulet Toibazar

Abdulrahman Alfulayt

Abdulaziz S. Albadawi

133

27 Jul 2025

Region-based Cluster Discrimination for Visual Representation Learning

...

188

26 Jul 2025

MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks

183

25 Jul 2025

HW-MLVQA: Elucidating Multilingual Handwritten Document Understanding with a Comprehensive VQA Benchmark

21 Jul 2025

Docopilot: Improving Multimodal Models for Document-Level UnderstandingComputer Vision and Pattern Recognition (CVPR), 2025

...

176

19 Jul 2025

Document Haystack: A Long Context Multimodal Image/Document Understanding Vision LLM Benchmark

Goeric Huybrechts

S. Ronanki

Sai Muralidhar Jayanthi

Jack FitzGerald

Srinivasan Veeravanallur

VLM

193

18 Jul 2025

Describe Anything Model for Visual Question Answering on Text-rich Images

...

277

16 Jul 2025

MCA-LLaVA: Manhattan Causal Attention for Reducing Hallucination in Large Vision-Language Models

239

12 Jul 2025

Animation Needs Attention: A Holistic Approach to Slides Animation Comprehension with Visual-Language Models

249

05 Jul 2025

Investigating Redundancy in Multimodal Large Language Models with Multiple Vision Encoders

...

187

04 Jul 2025

AuroraLong: Bringing RNNs Back to Efficient Open-Ended Video Understanding

332

03 Jul 2025

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

...

216

30 Jun 2025

MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation

197

20 Jun 2025

Robustness Evaluation of OCR-based Visual Document Understanding under Multi-Modal Adversarial Attacks

Dong Nguyen Tien

Dung D. Le

AAML

214

19 Jun 2025

Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

229

19 Jun 2025

WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and ChartsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Negar Foroutan

Angelika Romanou

Matin Ansaripour

Julian Martin Eisenschlos

Karl Aberer

R. Lebret

250

18 Jun 2025

SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement

203

16 Jun 2025

EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

262

13 Jun 2025

Manager: Aggregating Insights from Unimodal Experts in Two-Tower VLMs and MLLMs

308

13 Jun 2025

VLM@school -- Evaluation of AI image understanding on German middle school knowledge

René Peinl

Vincent Tischler

CoGe VLM

262

13 Jun 2025