Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding

19 May 2023

Papers citing "Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-guided Dynamic Token Merge for Document Understanding"

7 / 7 papers shown

Title
Deep Learning based Visually Rich Document Content Understanding: A Survey Muhammad Ali Jean Lee Salman Khan 34 6 0 02 Aug 2024
Transformers and Language Models in Form Understanding: A Comprehensive Review of Scanned Document Analysis Abdelrahman Abdallah Daniel Eberharter Zoe Pfister Adam Jatowt 27 12 0 06 Mar 2024
Multi-resolution HuBERT: Multi-resolution Speech Self-Supervised Learning with Masked Unit Prediction Jiatong Shi H. Inaguma Xutai Ma Ilia Kulikov Anna Y. Sun 43 24 0 04 Oct 2023
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision Yukun Zhai Xiaoqiang Zhang Xiameng Qin Sanyuan Zhao Xingping Dong Jianbing Shen 33 4 0 06 Jun 2023
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz X. Wang ViT VLM 180 499 0 22 Feb 2022
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding Yang Xu Yiheng Xu Tengchao Lv Lei Cui Furu Wei ... D. Florêncio Cha Zhang Wanxiang Che Min Zhang Lidong Zhou ViT MLLM 145 498 0 29 Dec 2020
FUNSD: A Dataset for Form Understanding in Noisy Scanned Documents Guillaume Jaume H. K. Ekenel Jean-Philippe Thiran 122 355 0 27 May 2019