DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding

DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding

27 August 2024

Jun Huang

Papers citing "DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding"

3 / 3 papers shown

Title
Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence Granite Vision Team Leonid Karlinsky Assaf Arbelle Abraham Daniels A. Nassar ... Sriram Raghavan T. Syeda-Mahmood Peter W. J. Staar Tal Drory Rogerio Feris VLM AI4TS 102 0 0 14 Feb 2025
DataComp-LM: In search of the next generation of training sets for language models Jeffrey Li Alex Fang Georgios Smyrnis Maor Ivgi Matt Jordan ... Alexandros G. Dimakis Y. Carmon Achal Dave Ludwig Schmidt Vaishaal Shankar ELM 29 79 0 17 Jun 2024
OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition Jianqiang Wan Sibo Song Wenwen Yu Yuliang Liu Wenqing Cheng Fei Huang Xiang Bai Cong Yao Zhibo Yang 37 26 0 28 Mar 2024