Vision Transformer for Fast and Efficient Scene Text Recognition

18 May 2021

Papers citing "Vision Transformer for Fast and Efficient Scene Text Recognition"

21 / 21 papers shown

Title
Historic Scripts to Modern Vision: A Novel Dataset and A VLM Framework for Transliteration of Modi Script to Devanagari Harshal Kausadikar Tanvi Kale Onkar Susladkar Sparsh Mittal 52 0 0 17 Mar 2025
TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control Weichao Zeng Yan Shu Zhenhang Li Dongbao Yang Yu Zhou DiffM 22 7 0 14 Oct 2024
VL-Reader: Vision and Language Reconstructor is an Effective Scene Text Recognizer Humen Zhong Zhibo Yang Zhaohai Li Peng Wang Jun Tang Wenqing Cheng Cong Yao 23 1 0 18 Sep 2024
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting Alloy Das Sanket Biswas Umapada Pal Josep Lladós Saumik Bhattacharya 52 2 0 27 Aug 2024
Focus on the Whole Character: Discriminative Character Modeling for Scene Text Recognition Bangbang Zhou Yadong Qu Zixiao Wang Zicheng Li Boqiang Zhang Hongtao Xie 42 1 0 08 Jul 2024
Enhancing Small Object Encoding in Deep Neural Networks: Introducing Fast&Focused-Net with Volume-wise Dot Product Layer Tofik Ali Partha Pratim Roy ObjD 28 2 0 18 Jan 2024
An Empirical Study of Scaling Law for OCR Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han 33 6 0 29 Dec 2023
IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition Xiaomeng Yang Zhi Qiao Yu Zhou DiffM 59 1 0 19 Dec 2023
Scene Text Recognition Models Explainability Using Local Features M. Ty Rowel Atienza 26 1 0 14 Oct 2023
DTrOCR: Decoder-only Transformer for Optical Character Recognition Masato Fujitake 43 35 0 30 Aug 2023
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao VOS 20 30 0 25 May 2023
Do We Train on Test Data? The Impact of Near-Duplicates on License Plate Recognition Rayson Laroca Valter Estevam A. Britto Rodrigo Minetto David Menotti 28 10 0 10 Apr 2023
Transferring General Multimodal Pretrained Models to Text Recognition Junyang Lin Xuancheng Ren Yichang Zhang Gao Liu Peng Wang An Yang Chang Zhou 32 4 0 19 Dec 2022
Indian Commercial Truck License Plate Detection and Recognition for Weighbridge Automation Siddharth Agrawal Keyur D. Joshi 30 4 0 23 Nov 2022
Masked Vision-Language Transformers for Scene Text Recognition Jie Wu Ying Peng Shenmin Zhang Weigang Qi Jian Andrew Zhang 29 3 0 09 Nov 2022
Multimodal Semi-Supervised Learning for Text Recognition Aviad Aberdam Roy Ganz Shai Mazor Ron Litman VLM 24 19 0 08 May 2022
SVTR: Scene Text Recognition with a Single Visual Model Yongkun Du Zhineng Chen Caiyan Jia Xiaoyue Yin Tianlun Zheng Chenxia Li Yuning Du Yu-Gang Jiang 11 170 0 30 Apr 2022
DAN: a Segmentation-free Document Attention Network for Handwritten Document Recognition Denis Coquenet Clément Chatelain Thierry Paquet 22 57 0 23 Mar 2022
Self-supervised Implicit Glyph Attention for Text Recognition Tongkun Guan Chaochen Gu Jingzheng Tu Xuehang Yang Qi Feng Yudi Zhao Xiaokang Yang Wei Shen 26 25 0 07 Mar 2022
On the Cross-dataset Generalization in License Plate Recognition Rayson Laroca Everton VIlhena Cardoso D. Lucio Valter Estevam David Menotti 21 42 0 02 Jan 2022
Data Augmentation for Scene Text Recognition Rowel Atienza 16 19 0 16 Aug 2021