TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text

12 May 2021

Amanpreet Singh

Papers citing "TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text"

30 / 30 papers shown

Title
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 82 3 0 26 Feb 2025
Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence Granite Vision Team Leonid Karlinsky Assaf Arbelle Abraham Daniels A. Nassar ... Sriram Raghavan T. Syeda-Mahmood Peter W. J. Staar Tal Drory Rogerio Feris VLM AI4TS 111 0 0 14 Feb 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 96 48 0 03 Jan 2025
Instruction-Guided Scene Text Recognition Yongkun Du Z. Chen Yuchen Su Caiyan Jia Yu-Gang Jiang 71 3 0 03 Jan 2025
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding Chenxin Tao Shiqian Su X. Zhu Chenyu Zhang Zhe Chen ... Wenhai Wang Lewei Lu Gao Huang Yu Qiao Jifeng Dai MLLM VLM 104 2 0 20 Dec 2024
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training Gen Luo Xue Yang Wenhan Dou Zhaokai Wang Jifeng Dai Jifeng Dai Yu Qiao Xizhou Zhu VLM MLLM 62 25 0 10 Oct 2024
Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling Zixiao Wang Hongtao Xie Yuxin Wang Yadong Qu Fengjun Guo Pengwei Liu DiffM 31 0 0 20 Sep 2024
FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting Alloy Das Sanket Biswas Umapada Pal Josep Lladós Saumik Bhattacharya 52 2 0 27 Aug 2024
WeCromCL: Weakly Supervised Cross-Modality Contrastive Learning for Transcription-only Supervised Text Spotting Jingjing Wu Zhengyao Fang Pengyuan Lyu Chengquan Zhang Fanglin Chen Guangming Lu Wenjie Pei 50 2 0 28 Jul 2024
Out of Length Text Recognition with Sub-String Matching Yongkun Du Zhineng Chen Caiyan Jia Xieping Gao Yu-Gang Jiang 49 2 0 17 Jul 2024
ROADWork Dataset: Learning to Recognize, Observe, Analyze and Drive Through Work Zones Anurag Ghosh R. Tamburo Shen Zheng Juan R. Alvarez-Padilla Hailiang Zhu Michael Cardei Nicholas Dunn Christoph Mertz Srinivasa G. Narasimhan 39 1 0 11 Jun 2024
MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models Tianle Gu Zeyang Zhou Kexin Huang Dandan Liang Yixu Wang ... Keqing Wang Yujiu Yang Yan Teng Yu Qiao Yingchun Wang ELM 42 10 0 11 Jun 2024
SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting Mingxin Huang Dezhi Peng Hongliang Li Zhenghao Peng Chongyu Liu Dahua Lin Yuliang Liu Xiang Bai Lianwen Jin 72 1 0 15 Jan 2024
An Empirical Study of Scaling Law for OCR Miao Rang Zhenni Bi Chuanjian Liu Yunhe Wang Kai Han 33 6 0 29 Dec 2023
SCOB: Universal Text Understanding via Character-wise Supervised Contrastive Learning with Online Text Rendering for Bridging Domain Gap Daehee Kim Yoon Kim Donghyun Kim Yumin Lim Geewook Kim Taeho Kil 23 3 0 21 Sep 2023
Indian Commercial Truck License Plate Detection and Recognition for Weighbridge Automation Siddharth Agrawal Keyur D. Joshi 30 4 0 23 Nov 2022
DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting Maoyuan Ye Jing Zhang Shanshan Zhao Juhua Liu Tongliang Liu Bo Du Dacheng Tao 36 70 0 19 Nov 2022
Task Grouping for Multilingual Text Recognition Jing Huang Kevin J Liang Rama Kovvuri Tal Hassner 16 5 0 13 Oct 2022
Out-of-Vocabulary Challenge Report Sergi Garcia-Bordils Andrés Mafla Ali Furkan Biten Oren Nuriel Aviad Aberdam Shai Mazor Ron Litman Dimosthenis Karatzas 9 16 0 14 Sep 2022
1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding: End-to-End Recognition of Out of Vocabulary Words Zhangzi Zhu Chuhui Xue Yu Hao Wenqing Zhang Song Bai 48 0 0 01 Sep 2022
GLASS: Global to Local Attention for Scene-Text Spotting Roi Ronen Shahar Tsiper Oron Anschel I. Lavi Amir Markovitz R. Manmatha 21 42 0 05 Aug 2022
COO: Comic Onomatopoeia Dataset for Recognizing Arbitrary or Truncated Texts Jeonghun Baek Yusuke Matsui Kiyoharu Aizawa 34 13 0 11 Jul 2022
Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition Mingkun Yang Minghui Liao Pu Lu Jing Wang Shenggao Zhu Hualin Luo Qingzhen Tian X. Bai SSL 29 55 0 01 Jul 2022
Vision-Language Pre-Training for Boosting Scene Text Detectors Sibo Song Jianqiang Wan Zhibo Yang Jun Tang Wenqing Cheng Xiang Bai Cong Yao VLM 34 24 0 29 Apr 2022
Unitail: Detecting, Reading, and Matching in Retail Scene Fangyi Chen Han Zhang Zaiwang Li Jiachen Dou Shentong Mo Hao Chen Yongxin Zhang Uzair Ahmed Chenchen Zhu Marios Savvides 22 9 0 01 Apr 2022
LaTr: Layout-Aware Transformer for Scene-Text VQA Ali Furkan Biten Ron Litman Yusheng Xie Srikar Appalaraju R. Manmatha ViT 24 100 0 23 Dec 2021
Oracle Teacher: Leveraging Target Information for Better Knowledge Distillation of CTC Models J. Yoon H. Kim Hyeon Seung Lee Sunghwan Ahn N. Kim 28 1 0 05 Nov 2021
Open Images V5 Text Annotation and Yet Another Mask Text Spotter Ilya Krylov S. Nosov V. Sovrasov VLM 17 54 0 23 Jun 2021
TextStyleBrush: Transfer of Text Aesthetics from a Single Example Praveen Krishnan Rama Kovvuri Guan Pang B. Vassilev Tal Hassner DiffM 34 51 0 15 Jun 2021
COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images Andreas Veit Tomas Matera Lukás Neumann Jirí Matas Serge J. Belongie 185 515 0 26 Jan 2016