v1v2 (latest)

CLIPTER: Looking at the Bigger Picture in Scene Text Recognition

IEEE International Conference on Computer Vision (ICCV), 2023

18 January 2023

Papers citing "CLIPTER: Looking at the Bigger Picture in Scene Text Recognition"

13 / 13 papers shown

Bharat Scene Text: A Novel Comprehensive Dataset and Benchmark for Indian Language Scene Text Understanding

145

28 Nov 2025

Towards General Urban Monitoring with Vision-Language Models: A Review, Evaluation, and a Research Agenda

André Torneiro

Diogo Monteiro

Paulo Novais

Pedro Rangel Henriques

Nuno F. Rodrigues

146

14 Oct 2025

TEACH: Text Encoding as Curriculum Hints for Scene Text Recognition

Xiahan Yang

Hui Zheng

VLM

111

02 Aug 2025

MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling

309

12 Jun 2025

BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQAInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

226

04 Mar 2025

DocVLM: Make Your VLM an Efficient ReaderComputer Vision and Pattern Recognition (CVPR), 2024

651

11 Dec 2024

TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models

249

07 Nov 2024

Question Aware Vision Transformer for Multimodal Reasoning

299

08 Feb 2024

GRAM: Global Reasoning for Multi-Page VQA

234

07 Jan 2024

Symmetrical Linguistic Feature Distillation with CLIP for Scene Text RecognitionACM Multimedia (ACM MM), 2023

325

08 Oct 2023

Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards Enhancing Text Spotting PerformanceIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Alloy Das

Sanket Biswas

Ayan Banerjee

Josep Lladós

Umapada Pal

Saumik Bhattacharya

321

02 Oct 2023

FuseCap: Leveraging Large Language Models for Enriched Fused Image CaptionsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

391

28 May 2023

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language ModelIEEE Transactions on Image Processing (IEEE TIP), 2023

369

23 May 2023