Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps

AAAI Conference on Artificial Intelligence (AAAI), 2020

9 December 2020

Qi Zhu

Chenyu Gao

Peng Wang

Qi Wu

ArXiv (abs)PDF HTML Github (57★)

Papers citing "Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps"

19 / 19 papers shown

Gather and Trace: Rethinking Video TextVQA from an Instance-oriented Perspective

236

06 Aug 2025

Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA

Jia Li

342

13 Oct 2023

Image-Text Pre-Training for Logo RecognitionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Mark Hubenthal

Suren Kumar

VLM

221

18 Sep 2023

Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQAAAAI Conference on Artificial Intelligence (AAAI), 2023

Xin Li

210

04 Apr 2023

DEVICE: Depth and Visual Concepts Aware Transformer for OCR-based Image CaptioningPattern Recognition (Pattern Recogn.), 2023

610

03 Feb 2023

SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering

461

16 Dec 2022

Text-Aware Dual Routing Network for Visual Question Answering

Luoqian Jiang

Yifan He

Jian Chen

155

17 Nov 2022

Toward 3D Spatial Reasoning for Human-like Text-based Visual Question AnsweringIEEE Transactions on Image Processing (IEEE TIP), 2022

Hao Li

Qi Wu

436

21 Sep 2022

MUST-VQA: MUltilingual Scene-text VQA

Emanuele Vivoli

302

14 Sep 2022

TAG: Boosting Text-VQA via Text-aware Visual Question-answer GenerationBritish Machine Vision Conference (BMVC), 2022

Jun Wang

M. Gao

Yuqian Hu

Ramprasaath R. Selvaraju

Ran Xu

279

03 Aug 2022

One for All: One-stage Referring Expression Comprehension with Dynamic ReasoningNeurocomputing (Neurocomputing), 2022

354

31 Jul 2022

Towards Multimodal Vision-Language Models Generating Non-Generic TextICON (ICON), 2022

Wes Robbins

Zanyar Zohourianshahzadi

Jugal Kalita

219

09 Jul 2022

ViSTA: Vision and Scene Text Aggregation for Cross-Modal RetrievalComputer Vision and Pattern Recognition (CVPR), 2022

...

Errui Ding

Jingdong Wang

392

31 Mar 2022

Towards Escaping from Language Bias and OCR Error: Semantics-Centered Text Visual Question AnsweringIEEE International Conference on Multimedia and Expo (ICME), 2022

171

24 Mar 2022

LaTr: Layout-Aware Transformer for Scene-Text VQAComputer Vision and Pattern Recognition (CVPR), 2021

478

118

23 Dec 2021

ICDAR 2021 Competition on Document VisualQuestion AnsweringIEEE International Conference on Document Analysis and Recognition (ICDAR), 2021

254

10 Nov 2021

Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling

Xiaopeng Lu

Zhenhua Fan

Yansen Wang

Jean Oh

Carolyn Rose

226

20 Aug 2021

Question-controlled Text-aware Image CaptioningACM Multimedia (ACM MM), 2021

Anwen Hu

Shizhe Chen

Qin Jin

221

04 Aug 2021

From Show to Tell: A Survey on Deep Learning-based Image CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Lorenzo Baraldi

585

373

14 Jul 2021