Multi-modal In-Context Learning Makes an Ego-evolving Scene Text
Recognizer

Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer

22 November 2023

Yuan Xie

Papers citing "Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer"

7 / 7 papers shown

Title
TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation Yuheng Feng Jianhui Wang Kun Li Sida Li Tianyu Shi Haoyue Han Miao Zhang Xueqian Wang DiffM 53 0 0 22 Mar 2025
First-place Solution for Streetscape Shop Sign Recognition Competition Bin Wang Li Jing 64 0 0 06 Jan 2025
Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance Wenhao Sun Benlei Cui Xue-mei Dong Jingqun Tang Yi Liu DiffM 108 12 0 17 Dec 2024
TextSquare: Scaling up Text-Centric Visual Instruction Tuning Jingqun Tang Chunhui Lin Zhen Zhao Shubo Wei Binghong Wu ... Yuliang Liu Hao Liu Yuan Xie Xiang Bai Can Huang LRM VLM MLLM 61 28 0 19 Apr 2024
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 169 401 0 10 Sep 2021
COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images Andreas Veit Tomas Matera Lukás Neumann Jirí Matas Serge J. Belongie 175 515 0 26 Jan 2016