v1v2v3v4 (latest)

Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

19 May 2015

Bryan A. Plummer

Liwei Wang

Christopher M. Cervantes

Papers citing "Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models"

50 / 1,325 papers shown

The Case for Perspective in Multimodal Datasets

118

22 May 2022

Training Vision-Language Transformers from Captions

Alexander G. Hauptmann

Jianfeng Gao

Yonatan Bisk

VLM ViT

425

19 May 2022

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image CaptioningComputer Vision and Pattern Recognition (CVPR), 2022

Chia-Wen Kuo

Z. Kira

266

09 May 2022

RoViST:Learning Robust Metrics for Visual Storytelling

Eileen Wang

S. Han

Josiah Poon

166

08 May 2022

Language Models Can See: Plugging Visual Controls in Text Generation

Lingpeng Kong

274

111

05 May 2022

CoCa: Contrastive Captioners are Image-Text Foundation Models

Mojtaba Seyedhosseini

Yonghui Wu

VLM CLIP OffRL

708

1,616

04 May 2022

Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering

281

02 May 2022

Improving Visual Grounding with Visual-Linguistic Verification and Iterative ReasoningComputer Vision and Pattern Recognition (CVPR), 2022

Li Yang

Yan Xu

Chunfen Yuan

Wei Liu

Bing Li

Weiming Hu

ObjD

293

155

30 Apr 2022

Leaner and Faster: Two-Stage Model Compression for Lightweight Text-Image RetrievalNorth American Chapter of the Association for Computational Linguistics (NAACL), 2022

Siyu Ren

Kenny Q. Zhu

VLM

102

29 Apr 2022

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression ComprehensionIEEE Transactions on Image Processing (IEEE TIP), 2022

Xi Li

339

21 Apr 2022

Making the Most of Text Semantics to Improve Biomedical Vision--Language ProcessingEuropean Conference on Computer Vision (ECCV), 2022

Benedikt Boecking

Naoto Usuyama

Shruthi Bannur

Daniel Coelho De Castro

...

496

368

21 Apr 2022

Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval

204

20 Apr 2022

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual ModelsNeural Information Processing Systems (NeurIPS), 2022

...

Zicheng Liu

297

177

19 Apr 2022

COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal RetrievalComputer Vision and Pattern Recognition (CVPR), 2022

262

15 Apr 2022

Brainish: Formalizing A Multimodal Language for Intelligence and Consciousness

Paul Pu Liang

359

14 Apr 2022

X-DETR: A Versatile Architecture for Instance-wise Vision-Language TasksEuropean Conference on Computer Vision (ECCV), 2022

162

12 Apr 2022

Adapting CLIP For Phrase Localization Without Further Training

222

07 Apr 2022

ECCV Caption: Correcting False Negatives by Collecting Machine-and-Human-verified Image-Caption Associations for MS-COCOEuropean Conference on Computer Vision (ECCV), 2022

1.5K

07 Apr 2022

Multi-View Transformer for 3D Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2022

398

177

05 Apr 2022

Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding

241

04 Apr 2022

FindIt: Generalized Localization with Natural Language QueriesEuropean Conference on Computer Vision (ECCV), 2022

215

31 Mar 2022

TubeDETR: Spatio-Temporal Video Grounding with TransformersComputer Vision and Pattern Recognition (CVPR), 2022

341

121

30 Mar 2022

Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2022

Jiabo Ye

Ji Zhang

234

29 Mar 2022

Large-scale Bilingual Language-Image Contrastive Learning

ByungSoo Ko

Geonmo Gu

VLM

285

28 Mar 2022

Single-Stream Multi-Level Alignment for Vision-Language PretrainingEuropean Conference on Computer Vision (ECCV), 2022

357

27 Mar 2022

Knowledge Mining with Scene Text for Fine-Grained RecognitionComputer Vision and Pattern Recognition (CVPR), 2022

208

27 Mar 2022

Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web VideosComputer Vision and Pattern Recognition (CVPR), 2022

Tomávs Souvcek

Jean-Baptiste Alayrac

Antoine Miech

Ivan Laptev

Josef Sivic

247

22 Mar 2022

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models

270

22 Mar 2022

Finding Structural Knowledge in Multimodal-BERTAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Victor Milewski

Miryam de Lhoneux

Marie-Francine Moens

220

17 Mar 2022

Pseudo-Q: Generating Pseudo Language Queries for Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2022

Gao Huang

324

16 Mar 2022

NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language TasksComputer Vision and Pattern Recognition (CVPR), 2022

Fawaz Sammani

Tanmoy Mukherjee

Nikos Deligiannis

MILM ELM LRM

321

09 Mar 2022

Geodesic Multi-Modal Mixup for Robust Fine-TuningNeural Information Processing Systems (NeurIPS), 2022

458

08 Mar 2022

Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept RecognitionIEEE transactions on multimedia (IEEE TMM), 2022

Yaowei Wang

220

07 Mar 2022

FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in ContextEuropean Conference on Computer Vision (ECCV), 2022

Pinaki Nath Chowdhury

337

04 Mar 2022

Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

Lei Zhang

212

03 Mar 2022

Multi-modal Alignment using Representation CodebookComputer Vision and Pattern Recognition (CVPR), 2022

511

28 Feb 2022

StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing TranslationInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

Peter Schaldenbrand

Zhixuan Liu

Jean Oh

CLIP

194

24 Feb 2022

GroupViT: Semantic Segmentation Emerges from Text SupervisionComputer Vision and Pattern Recognition (CVPR), 2022

765

637

22 Feb 2022

Vision-Language Pre-Training with Triple Contrastive LearningComputer Vision and Pattern Recognition (CVPR), 2022

575

358

21 Feb 2022

On Guiding Visual Attention with Language SpecificationComputer Vision and Pattern Recognition (CVPR), 2022

415

17 Feb 2022

CommerceMM: Large-Scale Commerce MultiModal Representation Learning with Omni RetrievalKnowledge Discovery and Data Mining (KDD), 2022

263

15 Feb 2022

Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training BenchmarkNeural Information Processing Systems (NeurIPS), 2022

...

Wei Zhang

Hang Xu

410

138

14 Feb 2022

I-Tuning: Tuning Frozen Language Models with Image for Lightweight Image CaptioningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

187

14 Feb 2022

Multi-Modal Knowledge Graph Construction and Application: A SurveyIEEE Transactions on Knowledge and Data Engineering (TKDE), 2022

Zhixu Li

211

238

11 Feb 2022

Bench-Marking And Improving Arabic Automatic Image Captioning Through The Use Of Multi-Task Learning Paradigm

Muhy Eddin Za'ter

Bashar Talafha

VLM

199

11 Feb 2022

Keyword localisation in untranscribed speech using visually grounded speech modelsIEEE Journal on Selected Topics in Signal Processing (IEEE JSTSP), 2022

Kayode Olaleye

Dan Oneaţă

Herman Kamper

206

02 Feb 2022

Deep Learning Approaches on Image Captioning: A ReviewACM Computing Surveys (ACM CSUR), 2022

487

155

31 Jan 2022

A Frustratingly Simple Approach for End-to-End Image Captioning

244

30 Jan 2022

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage LearningACM Multimedia (ACM MM), 2022

Xuanjing Huang

245

29 Jan 2022

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and GenerationInternational Conference on Machine Learning (ICML), 2022

1.4K

5,888

28 Jan 2022