Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition

31 July 2022

Zhifei Zhang

Papers citing "Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition"

33 / 33 papers shown

Title
Joint Low-level and High-level Textual Representation Learning with Multiple Masking Strategies Zhengmi Tang Yuto Mitsui Tomo Miyazaki S. Omachi 14 0 0 11 May 2025
Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding Han Xiao Yina Xie Guanxin Tan Yinghao Chen R. Hu ... Peng Gao Yafei Wen Xiaoxin Chen Shuai Ren Hongsheng Li VLM 37 0 0 08 May 2025
PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks Feng Ni Kui Huang Yao Lu Wenyu Lv Guanzhong Wang Zeyu Chen Y. Liu VLM 42 0 0 06 Mar 2025
Instruction-Guided Scene Text Recognition Yongkun Du Z. Chen Yuchen Su Caiyan Jia Yu-Gang Jiang 62 3 0 03 Jan 2025
SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition Yongkun Du Z. Chen Hongtao Xie Caiyan Jia Yu Jiang 80 1 0 24 Nov 2024
Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing Yadong Qu Yuxin Wang Bangbang Zhou Z. Wang Hongtao Xie Yongdong Zhang 75 0 0 23 Nov 2024
NVLM: Open Frontier-Class Multimodal LLMs Wenliang Dai Nayeon Lee Boxin Wang Zhuoling Yang Zihan Liu Jon Barker Tuomas Rintamaki M. Shoeybi Bryan Catanzaro Wei Ping MLLM VLM LRM 37 50 0 17 Sep 2024
One-Shot Diffusion Mimicker for Handwritten Text Generation Gang Dai Yifan Zhang Quhui Ke Qiangya Guo Shuangping Huang DiffM 33 0 0 06 Sep 2024
WAS: Dataset and Methods for Artistic Text Segmentation Xudong Xie Yuzhe Li Yang Liu Zhifei Zhang Zhaowen Wang Wei Xiong Xiang Bai DiffM 31 2 0 31 Jul 2024
Focus on the Whole Character: Discriminative Character Modeling for Scene Text Recognition Bangbang Zhou Yadong Qu Zixiao Wang Zicheng Li Boqiang Zhang Hongtao Xie 32 1 0 08 Jul 2024
Efficient scene text image super-resolution with semantic guidance LeoWu TomyEnrique Xiangcheng Du Kangliang Liu Han Yuan Zhao Zhou Cheng Jin VLM 11 2 0 20 Mar 2024
Efficiently Leveraging Linguistic Priors for Scene Text Spotting Nguyen Nguyen Yapeng Tian Chenliang Xu 45 1 0 27 Feb 2024
Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition Mingkun Yang Biao Yang Minghui Liao Yingying Zhu Xiang Bai 16 5 0 24 Feb 2024
Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition Mingkun Yang Biao Yang Minghui Liao Yingying Zhu X. Bai VLM 43 10 0 21 Feb 2024
IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition Xiaomeng Yang Zhi Qiao Yu Zhou DiffM 43 1 0 19 Dec 2023
Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer Zhen Zhao Jingqun Tang Chunhui Lin Binghong Wu Can Huang Hao Liu Xin Tan Zhizhong Zhang Yuan Xie 16 18 0 22 Nov 2023
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation Yongxin Shi Dezhi Peng Wenhui Liao Zening Lin Xinhong Chen Chongyu Liu Yuyi Zhang Lianwen Jin MLLM 12 41 0 25 Oct 2023
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition Zixiao Wang Hongtao Xie Yuxin Wang Jianjun Xu Boqiang Zhang Yongdong Zhang 18 15 0 08 Oct 2023
ReForm-Eval: Evaluating Large Vision Language Models via Unified Re-Formulation of Task-Oriented Benchmarks Zejun Li Ye Wang Mengfei Du Qingwen Liu Binhao Wu ... Zhihao Fan Jie Fu Jingjing Chen Xuanjing Huang Zhongyu Wei 15 10 0 04 Oct 2023
ImageBind-LLM: Multi-modality Instruction Tuning Jiaming Han Renrui Zhang Wenqi Shao Peng Gao Peng-Tao Xu ... Yafei Wen Xiaoxin Chen Xiangyu Yue Hongsheng Li Yu Qiao MLLM 16 115 0 07 Sep 2023
Deformation Robust Text Spotting with Geometric Prior Xixuan Hao Aozhong Zhang Xianze Meng Bin Fu 19 0 0 31 Aug 2023
UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding Hao Feng Zijian Wang Jingqun Tang Jinghui Lu Wen-gang Zhou Houqiang Li Can Huang MLLM VLM 13 46 0 19 Aug 2023
Tiny LVLM-eHub: Early Multimodal Experiments with Bard Wenqi Shao Yutao Hu Peng Gao Meng Lei Kaipeng Zhang ... Peng-Tao Xu Siyuan Huang Hongsheng Li Yuning Qiao Ping Luo VLM MLLM 22 2 0 07 Aug 2023
Context Perception Parallel Decoder for Scene Text Recognition Yongkun Du Zhineng Chen Caiyan Jia Xiaoyue Yin Chenxia Li Yuning Du Yu-Gang Jiang 27 7 0 23 Jul 2023
Revisiting Scene Text Recognition: A Data Perspective Qing-Yuan Jiang Jiapeng Wang Dezhi Peng Chongyu Liu Lianwen Jin 13 25 0 17 Jul 2023
Large Multimodal Models: Notes on CVPR 2023 Tutorial Chunyuan Li MLLM VLM 6 20 0 26 Jun 2023
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models Peng-Tao Xu Wenqi Shao Kaipeng Zhang Peng Gao Shuo Liu Meng Lei Fanqing Meng Siyuan Huang Yu Qiao Ping Luo ELM MLLM 23 158 0 15 Jun 2023
Looking and Listening: Audio Guided Text Recognition Wenwen Yu Mingyu Liu Biao Yang Enming Zhang Deqiang Jiang Xing Sun Yuliang Liu Xiang Bai DiffM 17 1 0 06 Jun 2023
On the Hidden Mystery of OCR in Large Multimodal Models Yuliang Liu Zhang Li Mingxin Huang Chunyuan Li Dezhi Peng Mingyu Liu Lianwen Jin Xiang Bai VLM MLLM 16 47 0 13 May 2023
Self-supervised Character-to-Character Distillation for Text Recognition Tongkun Guan Wei Shen Xuehang Yang Qi Feng Zekun Jiang Xiaokang Yang 17 11 0 01 Nov 2022
Self-supervised Implicit Glyph Attention for Text Recognition Tongkun Guan Chaochen Gu Jingzheng Tu Xuehang Yang Qi Feng Yudi Zhao Xiaokang Yang Wei Shen 9 25 0 07 Mar 2022
CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition Tianlun Zheng Zhineng Chen Shancheng Fang Hongtao Xie Yu-Gang Jiang 24 40 0 22 Nov 2021
COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images Andreas Veit Tomas Matera Lukás Neumann Jirí Matas Serge J. Belongie 169 458 0 26 Jan 2016