mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page
Document Understanding

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

5 September 2024

Liang Zhang

Ming Yan

Ji Zhang

Fei Huang

Jingren Zhou

Papers citing "mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding"

6 / 6 papers shown

Title
HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding? Yusen Zhang Wenliang Zheng Aashrith Madasu Peng Shi Ryo Kamoi ... Ranran Haoran Zhang Avitej Iyer Renze Lou Wenpeng Yin Rui Zhang 63 0 0 25 Apr 2025
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation Mohammad Mahdi Abootorabi Amirhosein Zobeiri Mahdi Dehghani Mohammadali Mohammadkhani Bardia Mohammadi Omid Ghahroodi M. Baghshah Ehsaneddin Asgari RALM 87 3 0 12 Feb 2025
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations Linke Ouyang Yuan Qu Hongbin Zhou Jiawei Zhu Rui Zhang ... Chao Xu Bo Zhang Botian Shi Zhongying Tu Conghui He 89 5 0 10 Dec 2024
Chimera: Improving Generalist Model with Domain-Specific Experts Tianshuo Peng M. Li Hongbin Zhou Renqiu Xia Renrui Zhang ... Aojun Zhou Botian Shi Tao Chen Bo Zhang Xiangyu Yue 84 4 0 08 Dec 2024
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration Qinghao Ye Haiyang Xu Jiabo Ye Mingshi Yan Anwen Hu Haowei Liu Qi Qian Ji Zhang Fei Huang Jingren Zhou MLLM VLM 114 367 0 07 Nov 2023
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 148 259 0 07 Oct 2022