Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2007.00398
Cited By

DocVQA: A Dataset for VQA on Document Images

v1v2v3 (latest)

DocVQA: A Dataset for VQA on Document Images

1 July 2020

Dimosthenis Karatzas

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "DocVQA: A Dataset for VQA on Document Images"

50 / 759 papers shown

ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data

ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data

441

6

0

17 Jul 2024

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

Joshua Adrian Cahyono

...

473

199

0

17 Jul 2024

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of
Multimodal Models

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Tao Yuan

Mehrtash Harandi

310

11

0

16 Jul 2024

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

...

734

363

0

16 Jul 2024

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems

Wenhao Yu

Kaixin Ma

Zhuosheng Zhang

Dong Yu

201

29

0

15 Jul 2024

Extracting Training Data from Document-Based VQA Models

Extracting Training Data from Document-Based VQA Models

Francesco Pinto

Federico Tombari

244

6

0

11 Jul 2024

GeNet: A Multimodal LLM-Based Co-Pilot for Network Topology and Configuration

GeNet: A Multimodal LLM-Based Co-Pilot for Network Topology and Configuration

Aviram Zilberman

...

292

21

0

11 Jul 2024

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

Runhui Huang

Hengshuang Zhao

209

13

0

11 Jul 2024

Large Language Models Understand Layout

Large Language Models Understand Layout

328

6

0

08 Jul 2024

OmChat: A Recipe to Train Multimodal Language Models with Strong Long
Context and Video Understanding

OmChat: A Recipe to Train Multimodal Language Models with Strong Long Context and Video Understanding

266

8

0

06 Jul 2024

A Systematic Survey and Critical Review on Evaluating Large Language
Models: Challenges, Limitations, and Recommendations

A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations

Md Tahmid Rahman Laskar

Sawsan Alqahtani

Mohammad Abdullah Matin Khan

...

Md. Rizwan Parvez

Enamul Hoque

Jimmy Huang

283

91

0

04 Jul 2024

InternLM-XComposer-2.5: A Versatile Large Vision Language Model
Supporting Long-Contextual Input and Output

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

Xiaoyi Dong

Rui Qian

...

Kai Chen

Jifeng Dai

Yu Qiao

Dahua Lin

Jiaqi Wang

304

172

0

03 Jul 2024

MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition
and Analysis

MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis

Zequn Jie

Lin Ma

366

4

0

03 Jul 2024

TokenPacker: Efficient Visual Projector for Multimodal LLM

TokenPacker: Efficient Visual Projector for Multimodal LLM

Jian Liu

493

122

0

02 Jul 2024

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

...

632

41

0

02 Jul 2024

MMLongBench-Doc: Benchmarking Long-context Document Understanding with
Visualizations

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

...

Yu-Gang Jiang

Jiaqi Wang

284

95

0

01 Jul 2024

We-Math: Does Your Large Multimodal Model Achieve Human-like
Mathematical Reasoning?

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

Guanting Dong

...

Chen Li

297

166

0

01 Jul 2024

Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model

Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model

Longrong Yang

Dong Shen

Chaoxiang Cai

Fan Yang

429

8

0

28 Jun 2024

DocKylin: A Large Multimodal Model for Visual Document Understanding
with Efficient Visual Slimming

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

374

31

0

27 Jun 2024

ColPali: Efficient Document Retrieval with Vision Language Models

ColPali: Efficient Document Retrieval with Vision Language Models

C´eline Hudelot

868

91

0

27 Jun 2024

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

Xiangtai Li

Haodong Duan

Yining Li

Kai Chen

335

21

0

25 Jun 2024

Advancing Question Answering on Handwritten Documents: A
State-of-the-Art Recognition-Based Model for HW-SQuAD

Advancing Question Answering on Handwritten Documents: A State-of-the-Art Recognition-Based Model for HW-SQuAD

268

0

0

25 Jun 2024

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Sanghyun Woo

Manoj Middepogu

...

397

640

0

24 Jun 2024

Long Context Transfer from Language to Vision

Long Context Transfer from Language to Vision

Bo Li

Guangtao Zeng

Chunyuan Li

Ziwei Liu

353

356

0

24 Jun 2024

UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world
Document Analysis

UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis

287

40

0

21 Jun 2024

Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

Yuxuan Qiao

Haodong Duan

Xinyu Fang

Junming Yang

Lin Chen

Songyang Zhang

Jiaqi Wang

Dahua Lin

Kai Chen

227

29

0

20 Jun 2024

On Efficient Language and Vision Assistants for Visually-Situated
Natural Language Understanding: What Matters in Reading and Reasoning

On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning

Minjoon Seo

239

5

0

17 Jun 2024

DocGenome: An Open Large-scale Scientific Document Benchmark for
Training and Testing Multi-modal Large Language Models

DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models

Xiangchao Yan

Bo Zhang

...

Yongwei Wang

Bin Wang

Junchi Yan

Yu Qiao

255

25

0

17 Jun 2024

Generative Visual Instruction Tuning

Generative Visual Instruction Tuning

Jefferson Hernandez

Vicente Ordonez

116

4

0

17 Jun 2024

MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in
Multimodal Large Language Model

MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model

Xuming Hu

266

16

0

17 Jun 2024

Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report

Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report

Franz Louis Cesista

324

9

0

17 Jun 2024

WildVision: Evaluating Vision-Language Models in the Wild with Human
Preferences

WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

Wenhu Chen

William Yang Wang

Yejin Choi

Bill Yuchen Lin

442

57

0

16 Jun 2024

First Multi-Dimensional Evaluation of Flowchart Comprehension for
Multimodal Large Language Models

First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models

269

3

0

14 Jun 2024

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

363

7

0

13 Jun 2024

DistilDoc: Knowledge Distillation for Visually-Rich Document Applications

DistilDoc: Knowledge Distillation for Visually-Rich Document Applications

Jordy Van Landeghem

Matthew Blaschko

Marie-Francine Moens

365

4

0

12 Jun 2024

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal
Large Language Models

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

...

Yujiu Yang

Yingchun Wang

293

31

0

11 Jun 2024

Needle In A Multimodal Haystack

Needle In A Multimodal Haystack

Shuibo Zhang

...

Yu Qiao

Jifeng Dai

229

42

0

11 Jun 2024

TRINS: Towards Multimodal Language Models that Can Read

TRINS: Towards Multimodal Language Models that Can Read

Jiuxiang Gu

Changyou Chen

Tong Sun

238

7

0

10 Jun 2024

UnSupDLA: Towards Unsupervised Document Layout Analysis

UnSupDLA: Towards Unsupervised Document Layout Analysis

Talha Uddin Sheikh

Tahira Shehzadi

Didier Stricker

Muhammad Zeshan Afzal

212

3

0

10 Jun 2024

Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic
Reasoning Task 2024

Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024

Yu-Jung Heo

176

0

0

10 Jun 2024

VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text

VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded TextInternational Conference on Learning Representations (ICLR), 2024

Tianyu Zhang

Ge Zhang

Perouz Taslakian

271

5

0

10 Jun 2024

DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and
Effective for LMMs

DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMsNeural Information Processing Systems (NeurIPS), 2024

Yu-Gang Jiang

277

31

0

06 Jun 2024

Reconstructing training data from document understanding models

Reconstructing training data from document understanding models

Jérémie Dentan

233

3

0

05 Jun 2024

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal
Learning

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning

Alex Jinpeng Wang

Mike Zheng Shou

286

10

0

04 Jun 2024

SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model

SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model

Xiaolong Wang

285

188

0

03 Jun 2024

StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image
Perception, Comprehension, and Beyond

StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond

...

Chengquan Zhang

Errui Ding

Jingdong Wang

354

14

0

31 May 2024

VQA Training Sets are Self-play Environments for Generating Few-shot
Pools

VQA Training Sets are Self-play Environments for Generating Few-shot Pools

Tautvydas Misiunas

Jasper Uijlings

174

1

0

30 May 2024

Enhancing Descriptive Image Quality Assessment with A Large-scale Multi-modal Dataset

Enhancing Descriptive Image Quality Assessment with A Large-scale Multi-modal DatasetIEEE Transactions on Image Processing (TIP), 2024

485

38

0

29 May 2024

The Evolution of Multimodal Model Architectures

The Evolution of Multimodal Model Architectures

Abhishek Chaurasia

Eugenio Culurciello

325

27

0

28 May 2024

Matryoshka Multimodal Models

Matryoshka Multimodal Models

Jianwei Yang

272

57

0

27 May 2024

1 2 3...10 11 12...14 15 16

Page 11 of 16

Pageof 16