CCpdf: Building a High Quality Corpus for Visually Rich Documents from
Web Crawl Data

CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data

28 April 2023

Tomasz Stanislawek

Karol Kaczmarek

Filip Graliñski

Papers citing "CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data"

14 / 14 papers shown

Title
Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding Zining Wang Tongkun Guan Pei Fu Chen Duan Qianyi Jiang Zhentao Guo Shan Guo Junfeng Luo Wei-Ming Shen Xiaokang Yang MLLM VLM 69 0 0 18 Mar 2025
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion A. Nassar Andres Marafioti Matteo Omenetti Maksym Lysak Nikolaos Livathinos ... Yusik Kim A. Said Gurbuz Michele Dolfi Miquel Farré Peter W. J. Staar 53 3 0 14 Mar 2025
A Token-level Text Image Foundation Model for Document Understanding Tongkun Guan Zining Wang Pei Fu Zhengtao Guo Wei-Ming Shen ... Chen Duan Hao Sun Qianyi Jiang Junfeng Luo Xiaokang Yang VLM 43 0 0 04 Mar 2025
Multimodal Large Language Models for Text-rich Image Understanding: A Comprehensive Review Pei Fu Tongkun Guan Zining Wang Zhentao Guo Chen Duan ... Boming Chen Jiayao Ma Qianyi Jiang Kai Zhou Junfeng Luo VLM 53 0 0 23 Feb 2025
Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence Granite Vision Team Leonid Karlinsky Assaf Arbelle Abraham Daniels A. Nassar ... Sriram Raghavan T. Syeda-Mahmood Peter W. J. Staar Tal Drory Rogerio Feris VLM AI4TS 107 0 0 14 Feb 2025
μgat: Improving Single-Page Document Parsing by Providing Multi-Page Context Fabio Quattrini Carmine Zaccagnino Silvia Cascianelli Laura Righi Rita Cucchiara 36 1 0 28 Aug 2024
Docling Technical Report Christoph Auer Maksym Lysak Ahmed Nassar Michele Dolfi Nikolaos Livathinos ... Valéry Weber Lucas Morin Ingmar Meijer Viktor Kuropiatnyk Peter W. J. Staar LMTD 19 6 0 19 Aug 2024
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming Jiaxin Zhang Wentao Yang Songxuan Lai Zecheng Xie Lianwen Jin 32 15 0 27 Jun 2024
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding Anwen Hu Haiyang Xu Jiabo Ye Mingshi Yan Liang Zhang ... Chen Li Ji Zhang Qin Jin Fei Huang Jingren Zhou VLM 45 105 0 19 Mar 2024
Beyond Document Page Classification: Design, Datasets, and Challenges Jordy Van Landeghem Sanket Biswas Matthew B. Blaschko Marie-Francine Moens 32 6 0 24 Aug 2023
CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training Patrick Huber Armen Aghajanyan Barlas Oğuz Dmytro Okhonko Wen-tau Yih Sonal Gupta Xilun Chen 24 15 0 14 Oct 2021
Carbon Emissions and Large Neural Network Training David A. Patterson Joseph E. Gonzalez Quoc V. Le Chen Liang Lluís-Miquel Munguía D. Rothchild David R. So Maud Texier J. Dean AI4CE 239 643 0 21 Apr 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 248 1,986 0 31 Dec 2020
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding Yang Xu Yiheng Xu Tengchao Lv Lei Cui Furu Wei ... D. Florêncio Cha Zhang Wanxiang Che Min Zhang Lidong Zhou ViT MLLM 145 498 0 29 Dec 2020