v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Mojtaba Seyedhosseini

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 1,042 papers shown

S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist CaptionsNeural Information Processing Systems (NeurIPS), 2023

350

23 May 2023

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language ModelIEEE Transactions on Image Processing (IEEE TIP), 2023

369

23 May 2023

VLAB: Enhancing Video Language Pre-training by Feature Adapting and BlendingIEEE transactions on multimedia (IEEE TMM), 2023

Yi Yang

293

22 May 2023

Getting ViT in Shape: Scaling Laws for Compute-Optimal Model DesignNeural Information Processing Systems (NeurIPS), 2023

Ibrahim Alabdulmohsin

589

22 May 2023

Album Storytelling with Iterative Story-aware Captioning and Large Language Models

Lu Yuan

Yonghong Tian

QiXiang Ye

Liuliang Yuan

196

22 May 2023

Gloss-Free End-to-End Sign Language TranslationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

232

22 May 2023

Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted ApproachACM Multimedia (ACM MM), 2023

Haoning Wu

Liang Liao

Weisi Lin

193

22 May 2023

i-Code V2: An Autoregressive Generation Framework over Vision, Language, and Speech Data

...

Lu Yuan

154

21 May 2023

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense CaptionerACM Multimedia (ACM MM), 2023

202

19 May 2023

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

Peng Wang

Shijie Wang

Junyang Lin

Shuai Bai

Xiaohuan Zhou

Jingren Zhou

Xinggang Wang

Chang Zhou

VLM MLLM ObjD

588

154

18 May 2023

MedBLIP: Bootstrapping Language-Image Pre-training from 3D Medical Images and TextsAsian Conference on Computer Vision (ACCV), 2023

174

18 May 2023

What You See is What You Read? Improving Text-Image Alignment EvaluationNeural Information Processing Systems (NeurIPS), 2023

568

116

17 May 2023

Improved baselines for vision-language pre-training

Enrico Fini

Pietro Astolfi

Adriana Romero Soriano

Jakob Verbeek

M. Drozdzal

SSL CLIP VLM

387

15 May 2023

OneCAD: One Classifier for All image Datasets using multimodal learning

S. Wadekar

Eugenio Culurciello

282

11 May 2023

Simple Token-Level Confidence Improves Caption CorrectnessIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

244

11 May 2023

An Inverse Scaling Law for CLIP TrainingNeural Information Processing Systems (NeurIPS), 2023

Xianhang Li

Zeyu Wang

Cihang Xie

VLM CLIP

311

11 May 2023

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2023

416

110

11 May 2023

Self-Chained Image-Language Model for Video Localization and Question AnsweringNeural Information Processing Systems (NeurIPS), 2023

397

200

11 May 2023

Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal PerceptionNeural Information Processing Systems (NeurIPS), 2023

291

10 May 2023

Visual TuningACM Computing Surveys (ACM Comput. Surv.), 2023

...

438

10 May 2023

ImageBind: One Embedding Space To Bind Them AllComputer Vision and Pattern Recognition (CVPR), 2023

Kalyan Vasudev Alwala

Armand Joulin

Ishan Misra

VLM

553

1,305

09 May 2023

Less is More: Removing Text-regions Improves CLIP Training Efficiency and Robustness

Chen Chen

Xianzhi Du

183

08 May 2023

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured RepresentationsAAAI Conference on Artificial Intelligence (AAAI), 2023

...

Zeng Zhao

308

06 May 2023

TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion SynthesisIEEE International Conference on Computer Vision (ICCV), 2023

346

154

02 May 2023

Multimodal Neural DatabasesAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2023

246

02 May 2023

What Do Self-Supervised Vision Transformers Learn?International Conference on Learning Representations (ICLR), 2023

300

103

01 May 2023

Adversarial Representation Learning for Robust Privacy Preservation in AudioIEEE Open Journal of Signal Processing (IEEE Open J. Signal Process.), 2023

218

29 Apr 2023

An Empirical Study of Multimodal Model MergingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

335

28 Apr 2023

Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment

Haoning Wu

Liang Liao

Weisi Lin

215

28 Apr 2023

Retrieval-based Knowledge Augmented Vision Language Pre-trainingACM Multimedia (ACM MM), 2023

299

27 Apr 2023

RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models

398

21 Apr 2023

DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP TrainingComputer Vision and Pattern Recognition (CVPR), 2023

Yihao Chen

Xianbiao Qi

Jianan Wang

Lei Zhang

175

17 Apr 2023

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and DatasetIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

396

152

17 Apr 2023

Permutation Equivariance of Transformers and Its ApplicationsComputer Vision and Pattern Recognition (CVPR), 2023

326

16 Apr 2023

MVP-SEG: Multi-View Prompt Learning for Open-Vocabulary Semantic SegmentationChinese Conference on Pattern Recognition and Computer Vision (CPRCV), 2023

Xu Tang

Yao Hu

Baochang Zhang

VLM

166

14 Apr 2023

Efficient Multimodal Fusion via Interactive PromptingComputer Vision and Pattern Recognition (CVPR), 2023

159

13 Apr 2023

RECLIP: Resource-efficient CLIP by Training with Small Images

264

12 Apr 2023

Gradient-Free Textual InversionACM Multimedia (ACM MM), 2023

Zhengcong Fei

Mingyuan Fan

Junshi Huang

DiffM

260

12 Apr 2023

MoMo: A shared encoder Model for text, image and multi-Modal representations

116

11 Apr 2023

Improving Image Recognition by Retrieving from Web-Scale Image-Text DataComputer Vision and Pattern Recognition (CVPR), 2023

265

11 Apr 2023

Token Boosting for Robust Self-Supervised Visual Transformer Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2023

300

09 Apr 2023

Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerceComputer Vision and Pattern Recognition (CVPR), 2023

168

06 Apr 2023

VicTR: Video-conditioned Text Representations for Activity RecognitionComputer Vision and Pattern Recognition (CVPR), 2023

347

05 Apr 2023

Adopting Two Supervisors for Efficient Use of Large-Scale Remote Deep Neural NetworksACM Transactions on Software Engineering and Methodology (TOSEM), 2023

Michael Weiss

Paolo Tonella

AI4CE

191

05 Apr 2023

ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic RulesIEEE International Conference on Computer Vision (ICCV), 2023

Alexander G. Hauptmann

218

05 Apr 2023

Uncertainty estimation in Deep Learning for Panoptic segmentation

Michael J. Smith

F. Ferrie

OOD UQCV

178

04 Apr 2023

Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data

267

04 Apr 2023

Black Box Few-Shot Adaptation for Vision-Language modelsIEEE International Conference on Computer Vision (ICCV), 2023

Yassine Ouali

Adrian Bulat

Brais Martínez

Georgios Tzimiropoulos

VLM

247

04 Apr 2023

Exploring Vision-Language Models for Imbalanced LearningInternational Journal of Computer Vision (IJCV), 2023

308

04 Apr 2023

Vision-Language Models for Vision Tasks: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

499

1,014

03 Apr 2023