ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction

IEEE International Conference on Document Analysis and Recognition (ICDAR), 2019

18 March 2021

Papers citing "ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction"

50 / 219 papers shown

DocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA

Ahmad Mohammadshirazi

Pinaki Prasad Guha Neogi

Dheeraj Kulshrestha

R. Ramnath

VGen

138

27 Nov 2025

MGA-VQA: Secure and Interpretable Graph-Augmented Visual Question Answering with Memory-Guided Protection Against Unauthorized Knowledge Use

Ahmad Mohammadshirazi

Pinaki Prasad Guha Neogi

Dheeraj Kulshrestha

R. Ramnath

107

22 Nov 2025

ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization

Ahmad Mohammadshirazi

Pinaki Prasad Guha Neogi

Dheeraj Kulshrestha

R. Ramnath

121

22 Nov 2025

VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning

21 Nov 2025

GranViT: A Fine-Grained Vision Model With Autoregressive Perception For MLLMs

...

161

23 Oct 2025

Unified Reinforcement and Imitation Learning for Vision-Language Models

160

22 Oct 2025

FineVision: Open Data Is All You Need

Aritra Roy Gosthipaty

Andrés Marafioti

VLM

196

20 Oct 2025

Seeing but Not Believing: Probing the Disconnect Between Visual Attention and Answer Correctness in VLMs

...

136

20 Oct 2025

Document Intelligence in the Era of Large Language Models: A Survey

193

15 Oct 2025

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

...

432

15 Oct 2025

Exploring OCR-augmented Generation for Bilingual VQA

JoonHo Lee

Sunho Park

VLM

116

02 Oct 2025

FlexDoc: Parameterized Sampling for Diverse Multilingual Synthetic Documents for Training Document Understanding Models

Karan Dua

Hitesh Laxmichand Patel

138

02 Oct 2025

Visual CoT Makes VLMs Smarter but More Fragile

147

28 Sep 2025

AgenticIE: An Adaptive Agent for Information Extraction from Complex Regulatory Documents

Gaye Colakoglu

Gürkan Solmaz

Jonathan Fürst

204

15 Sep 2025

MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs

325

15 Sep 2025

DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding

12 Aug 2025

R^2

-CoD: Understanding Text-Graph Complementarity in Relational Reasoning via Knowledge Co-Distillation

150

02 Aug 2025

MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

275

29 Jul 2025

DocPolarBERT: A Pre-trained Model for Document Understanding with Relative Polar Coordinate Encoding of Layout Structures

292

11 Jul 2025

Robustness Evaluation of OCR-based Visual Document Understanding under Multi-Modal Adversarial Attacks

Dong Nguyen Tien

Dung D. Le

AAML

229

19 Jun 2025

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

327

18 Jun 2025

Hyper-Local Deformable Transformers for Text Spotting on Historical MapsKnowledge Discovery and Data Mining (KDD), 2024

Yijun Lin

Yao-Yi Chiang

150

17 Jun 2025

CoMemo: LVLMs Need Image Context with Image Memory

218

06 Jun 2025

VRD-IU: Lessons from Visually Rich Document Intelligence and UnderstandingInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

184

02 Jun 2025

Argus: Vision-Centric Reasoning with Grounded Chain-of-ThoughtComputer Vision and Pattern Recognition (CVPR), 2025

335

29 May 2025

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

396

26 May 2025

SATORI-R1: Incentivizing Multimodal Reasoning through Explicit Visual Anchoring

452

25 May 2025

ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding

281

25 May 2025

Doc-CoB: Enhancing Multi-Modal Document Understanding with Visual Chain-of-Boxes Reasoning

...

298

24 May 2025

FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document UnderstandingInternational Conference on Computational Linguistics (COLING), 2025

Amit Agarwal

Srikant Panda

Kulbhushan Pachauri

211

22 May 2025

Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning

...

399

21 May 2025

Information Extraction from Visually Rich Documents using LLM-based Organization of Documents into Independent Textual SegmentsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

190

18 May 2025

Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization

435

25 Apr 2025

Relation-Rich Visual Document Generator for Visual Information ExtractionComputer Vision and Pattern Recognition (CVPR), 2025

272

14 Apr 2025

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

...

625

806

14 Apr 2025

Capybara-OMNI: An Efficient Paradigm for Building Omni-Modal Language Models

302

10 Apr 2025

Data Metabolism: An Efficient Data Design Schema For Vision Language Model

385

10 Apr 2025

VISTA-OCR: Towards generative and interactive end to end OCR models

255

04 Apr 2025

Improving Applicability of Deep Learning based Token Classification models during Training

Anket Mehra

Malte Prieß

Marian Himstedt

277

28 Mar 2025

BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata ExtractionIEEE International Conference on Document Analysis and Recognition (ICDAR), 2025

196

25 Mar 2025

SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

429

24 Mar 2025

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

Mengsay Loem

Taiju Hosaka

212

21 Mar 2025

Marten: Visual Question Answering with Mask Generation for Multi-modal Document UnderstandingComputer Vision and Pattern Recognition (CVPR), 2025

247

18 Mar 2025

An Efficient Deep Learning-Based Approach to Automating Invoice Document ValidationACS/IEEE International Conference on Computer Systems and Applications (AICCSA), 2024

176

15 Mar 2025

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

Weiyun Wang

Zhangwei Gao

Lawrence Yunliang Chen

...

348

13 Mar 2025

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

442

10 Mar 2025

Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription

Benjamin Gutteridge

Matthew Thomas Jackson

Toni Kukurin

Xiaowen Dong

144

27 Feb 2025

Towards Statistical Factuality Guarantee for Large Vision-Language Models

347

27 Feb 2025

LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese ReceiptsInternational Journal on Document Analysis and Recognition (IJDAR), 2025

286

26 Feb 2025

olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models

613

25 Feb 2025