v1v2v3 (latest)

DocVQA: A Dataset for VQA on Document Images

1 July 2020

Minesh Mathew

Dimosthenis Karatzas

C. V. Jawahar

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "DocVQA: A Dataset for VQA on Document Images"

50 / 759 papers shown

See then Tell: Enhancing Key Information Extraction with Vision Grounding

253

29 Sep 2024

From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding

...

Huaijian Zhang

299

27 Sep 2024

Emu3: Next-Token Prediction is All You Need

Xinlong Wang

Xiaosong Zhang

Zhengxiong Luo

Quan-Sen Sun

Yufeng Cui

...

Xi Yang

Jingjing Liu

Yonghua Lin

Tiejun Huang

Zhongyuan Wang

MLLM

292

495

27 Sep 2024

CLLMate: A Multimodal Benchmark for Weather and Climate Events Forecasting

137

27 Sep 2024

DARE: Diverse Visual Question Answering with Robustness EvaluationTransactions of the Association for Computational Linguistics (TACL), 2024

348

26 Sep 2024

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid EmotionsComputer Vision and Pattern Recognition (CVPR), 2024

Kai Chen

Zhili Liu

...

Jun Yao

447

26 Sep 2024

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal ModelsComputer Vision and Pattern Recognition (CVPR), 2024

Matt Deitke

Christopher Clark

Sangho Lee

Rohun Tripathi

Yue Yang

...

Noah A. Smith

Hannaneh Hajishirzi

Ross Girshick

Ali Farhadi

Aniruddha Kembhavi

OSLM VLM

470

25 Sep 2024

A comprehensive study of on-device NLP applications -- VQA, automated Form filling, Smart Replies for Linguistic Codeswitching

Naman Goyal

183

23 Sep 2024

Phantom of Latent for Large Language and Vision Models

Yong Man Ro

285

23 Sep 2024

A-VL: Adaptive Attention for Large Vision-Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

418

23 Sep 2024

One Model for Two Tasks: Cooperatively Recognizing and Recovering Low-Resolution Scene Text Images by Iterative Mutual Guidance

Minyi Zhao

Yang Wang

Jihong Guan

Shuigeng Zhou

195

22 Sep 2024

AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual GranularityAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

316

20 Sep 2024

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

Xiaotian Han

Yiren Jian

Xuefeng Hu

Haogeng Liu

Yiqi Wang

...

Yuang Ai

Huaibo Huang

Ran He

Zhenheng Yang

Quanzeng You

LRM AI4CE

206

19 Sep 2024

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary ResolutionInternational Conference on Learning Representations (ICLR), 2024

Zuyan Liu

Yuhao Dong

Ziwei Liu

Winston Hu

Jiwen Lu

Yongming Rao

ObjD

614

134

19 Sep 2024

NVLM: Open Frontier-Class Multimodal LLMs

Wenliang Dai

Zihan Liu

308

114

17 Sep 2024

Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5Jahrestagung der Gesellschaft für Informatik (GI Jahrestagung), 2024

Marcel Lamott

Muhammad Armaghan Shakir

196

17 Sep 2024

Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language ModelingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Georgios Pantazopoulos

313

09 Sep 2024

RexUniNLU: Recursive Method with Explicit Schema Instructor for Universal NLU

Kun Kuang

Changlong Sun

Fei Wu

227

09 Sep 2024

POINTS: Improving Your Vision-language Model with Affordable Strategies

261

07 Sep 2024

WebQuest: A Benchmark for Multimodal QA on Web Page Sequences

Jindong Chen

315

06 Sep 2024

UNIT: Unifying Image and Text Recognition in One Vision EncoderNeural Information Processing Systems (NeurIPS), 2024

Yi Zhu

Jianhua Han

317

06 Sep 2024

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document UnderstandingAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Anwen Hu

Haiyang Xu

Liang Zhang

Jiabo Ye

Ming Yan

Ji Zhang

Qin Jin

Fei Huang

Jingren Zhou

VLM

406

05 Sep 2024

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

Chenglong Liu

...

Jianjian Sun

221

121

03 Sep 2024

The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts

252

31 Aug 2024

AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding

Yonghui Wang

Wengang Zhou

Hao Feng

Houqiang Li

VLM

166

30 Aug 2024

CogVLM2: Visual Language Models for Image and Video Understanding

...

Bin Xu

Juanzi Li

Yuxiao Dong

Jie Tang

VLM MLLM

303

200

29 Aug 2024

μgat: Improving Single-Page Document Parsing by Providing Multi-Page Context

Fabio Quattrini

Carmine Zaccagnino

Silvia Cascianelli

Laura Righi

Rita Cucchiara

188

28 Aug 2024

GlaLSTM: A Concurrent LSTM Stream Framework for Glaucoma Detection via Biomarker Mining

382

28 Aug 2024

Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

Subhashree Radhakrishnan

...

408

116

28 Aug 2024

DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document UnderstandingComputer Vision and Pattern Recognition (CVPR), 2024

Jun Huang

595

27 Aug 2024

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal CapabilitiesAAAI Conference on Artificial Intelligence (AAAI), 2024

486

23 Aug 2024

MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?International Conference on Learning Representations (ICLR), 2024

Yi-Fan Zhang

Huanyu Zhang

Haochen Tian

Chaoyou Fu

Shuangqing Zhang

...

Qingsong Wen

Zhang Zhang

Liwen Wang

Rong Jin

Tieniu Tan

OffRL

374

138

23 Aug 2024

Building and better understanding vision-language models: insights and future directions

Hugo Laurençon

320

133

22 Aug 2024

Large Language Models for Page Stream Segmentation

Neven Pičuljan

194

21 Aug 2024

DocTabQA: Answering Questions from Long Documents Using TablesIEEE International Conference on Document Analysis and Recognition (ICDAR), 2024

211

21 Aug 2024

EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model

Yizhou Zhou

Siying Wu

Fengyun Rao

Yueyi Zhang

Xiaoyan Sun

486

21 Aug 2024

HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

Kazi Hasan Ibn Arif

JinYi Yoon

Dimitrios S. Nikolopoulos

233

20 Aug 2024

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

...

531

146

16 Aug 2024

LLaVA-OneVision: Easy Visual Task Transfer

Bo Li

Yuanhan Zhang

Dong Guo

Renrui Zhang

Feng Li

Hao Zhang

Kaichen Zhang

Yanwei Li

Ziwei Liu

Chunyuan Li

MLLM SyDa VLM

581

1,788

06 Aug 2024

Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language ModelsInternational Conference on Learning Representations (ICLR), 2024

Mingxin Huang

Yuliang Liu

Dingkang Liang

Lianwen Jin

Xiang Bai

301

04 Aug 2024

Deep Learning based Visually Rich Document Content Understanding: A Survey

471

02 Aug 2024

LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models

Ruiyi Zhang

Jiuxiang Gu

Jian Chen

Jiuxiang Gu

Changyou Chen

Tongfei Sun

VLM

150

27 Jul 2024

OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation

266

26 Jul 2024

MangaUB: A Manga Understanding Benchmark for Large Multimodal Models

Hikaru Ikuta

Leslie Wöhler

Kiyoharu Aizawa

250

26 Jul 2024

MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs

Wei-Lun Chao

387

23 Jul 2024

Harmonizing Visual Text Comprehension and Generation

Yuan Xie

328

23 Jul 2024

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

Jiayi Ji

244

23 Jul 2024

Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding

242

19 Jul 2024

MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models

203

17 Jul 2024

VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

359

17 Jul 2024