olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models

v1v2v3 (latest)

olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models

25 February 2025

Jason Dunkelberger

Christopher Wilhelm

ArXiv (abs)PDF HTML

Papers citing "olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models"

5 / 5 papers shown

Title
MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm Zhang Li Yuliang Liu Qiang Liu Zhiyin Ma Ziyang Zhang Shuo Zhang Zidun Guo Jiarui Zhang Xinyu Wang Xiang Bai 114 0 0 05 Jun 2025
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability Genta Indra Winata David Anugraha Emmy Liu Alham Fikri Aji Shou-Yi Hung ... Muhammad Farid Adilazuarda En-Shiun Annie Lee Ayu Purwarianti Derry Wijaya Monojit Choudhury 86 0 0 02 Jun 2025
SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation Yuyang Dong Nobuhiro Ueda Krisztián Boros Daiki Ito Takuya Sera Masafumi Oyamada VLM 116 0 0 20 May 2025
Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han ... Qi Liu Chunhui Lin Jingqun Tang Hao Liu Can Huang 137 3 0 20 May 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 455 699 0 20 Feb 2025