v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Mojtaba Seyedhosseini

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 1,042 papers shown

All in Tokens: Unifying Output Space of Visual Tasks via Soft TokenIEEE International Conference on Computer Vision (ICCV), 2023

326

05 Jan 2023

Reference Twice: A Simple and Unified Baseline for Few-Shot Instance SegmentationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Yue Han

Jiangning Zhang

Zhucun Xue

Chao Xu

Xintian Shen

Yabiao Wang

Chengjie Wang

Yong Liu

Xiangtai Li

350

03 Jan 2023

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2022

Jingdong Wang

Wanli Ouyang

390

31 Dec 2022

FlatENN: Train Flat for Enhanced Fault Tolerance of Quantized Deep Neural Networks

Akul Malhotra

S. Gupta

29 Dec 2022

RevealED: Uncovering Pro-Eating Disorder Content on Twitter Using Deep Learning

J. Feldman

181

28 Dec 2022

Noise-aware Learning from Web-crawled Image-Text Data for Image CaptioningIEEE International Conference on Computer Vision (ICCV), 2022

245

27 Dec 2022

Do DALL-E and Flamingo Understand Each Other?IEEE International Conference on Computer Vision (ICCV), 2022

Jindong Gu

226

23 Dec 2022

Infrared Image Super-Resolution: Systematic Review, and Future Trends

654

22 Dec 2022

Generalized Decoding for Pixel, Image, and LanguageComputer Vision and Pattern Recognition (CVPR), 2022

Jianwei Yang

...

Lu Yuan

284

326

21 Dec 2022

ALCAP: Alignment-Augmented Music CaptionerConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Weituo Hao

197

21 Dec 2022

Masked Event Modeling: Self-Supervised Pretraining for Event CamerasIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

276

20 Dec 2022

Position-guided Text Prompt for Vision-Language Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2022

170

19 Dec 2022

Distilling Vision-Language Pre-training to Collaborate with Weakly-Supervised Temporal Action LocalizationComputer Vision and Pattern Recognition (CVPR), 2022

188

19 Dec 2022

CLIPPO: Image-and-Language Understanding from Pixels OnlyComputer Vision and Pattern Recognition (CVPR), 2022

339

15 Dec 2022

Reproducible scaling laws for contrastive language-image learningComputer Vision and Pattern Recognition (CVPR), 2022

489

1,147

14 Dec 2022

CREPE: Can Vision-Language Foundation Models Reason Compositionally?Computer Vision and Pattern Recognition (CVPR), 2022

371

180

13 Dec 2022

REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge MemoryComputer Vision and Pattern Recognition (CVPR), 2022

339

139

10 Dec 2022

Sparse Upcycling: Training Mixture-of-Experts from Dense CheckpointsInternational Conference on Learning Representations (ICLR), 2022

Joshua Ainslie

238

166

09 Dec 2022

VindLU: A Recipe for Effective Video-and-Language PretrainingComputer Vision and Pattern Recognition (CVPR), 2022

Gedas Bertasius

276

09 Dec 2022

Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive LearningComputer Vision and Pattern Recognition (CVPR), 2022

Rui Wang

Ser-Nam Lim

255

116

09 Dec 2022

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

332

09 Dec 2022

Learning Video Representations from Large Language ModelsComputer Vision and Pattern Recognition (CVPR), 2022

306

226

08 Dec 2022

Vision and Structured-Language Pretraining for Cross-Modal Food RetrievalComputer Vision and Image Understanding (CVIU), 2022

270

08 Dec 2022

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video LearningComputer Vision and Pattern Recognition (CVPR), 2022

236

06 Dec 2022

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Yi Wang

...

Yu Qiao

453

444

06 Dec 2022

Location-Aware Self-Supervised Transformers for Semantic SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

329

05 Dec 2022

Compound Tokens: Channel Fusion for Vision-Language Representation Learning

Maxwell Mbabilla Aladago

A. Piergiovanni

203

02 Dec 2022

Scaling Language-Image Pre-training via MaskingComputer Vision and Pattern Recognition (CVPR), 2022

Yanghao Li

Haoqi Fan

Ronghang Hu

Christoph Feichtenhofer

Kaiming He

CLIP VLM

374

390

01 Dec 2022

GRiT: A Generative Region-to-text Transformer for Object UnderstandingEuropean Conference on Computer Vision (ECCV), 2022

Zicheng Liu

255

145

01 Dec 2022

Exploiting Category Names for Few-Shot Classification with Vision-Language Models

251

29 Nov 2022

Context-Aware Robust Fine-TuningInternational Journal of Computer Vision (IJCV), 2022

182

29 Nov 2022

SuS-X: Training-Free Name-Only Transfer of Vision-Language ModelsIEEE International Conference on Computer Vision (ICCV), 2022

460

142

28 Nov 2022

SLAN: Self-Locator Aided Network for Cross-Modal Understanding

Ming-Ming Cheng

139

28 Nov 2022

Learning Object-Language Alignments for Open-Vocabulary Object DetectionInternational Conference on Learning Representations (ICLR), 2022

Jianfei Cai

200

118

27 Nov 2022

Exploring Consistency in Cross-Domain Transformer for Domain Adaptive Semantic Segmentation

301

27 Nov 2022

Receptive Field Refinement for Convolutional Neural Networks Reliably Improves Predictive Performance

Mats L. Richter

C. Pal

172

26 Nov 2022

Differentially Private Image Classification from Features

239

24 Nov 2022

Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors

290

23 Nov 2022

Mutual Information Learned Regressor: an Information-theoretic Viewpoint of Training Regression Systems

147

23 Nov 2022

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

^2

-VLM: All-In-One Pre-trained Model For Vision-Language TasksIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Hkust Wangchunshu Zhou

VLM MLLM

243

22 Nov 2022

Multitask Vision-Language Prompt TuningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Tianjun Zhang

288

21 Nov 2022

Exploring Discrete Diffusion Models for Image Captioning

Zicheng Liu

255

21 Nov 2022

Neural Dependencies Emerging from Learning Massive CategoriesComputer Vision and Pattern Recognition (CVPR), 2022

Jingren Zhou

103

21 Nov 2022

Unifying Vision-Language Representation Space with Single-tower TransformerAAAI Conference on Artificial Intelligence (AAAI), 2022

Nojun Kwak

241

21 Nov 2022

You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language ModelComputer Vision and Pattern Recognition (CVPR), 2022

Yaqing Wang

Caiwen Ding

Dongkuan Xu

209

21 Nov 2022

Bidirectional Generation of Structure and Properties Through a Single Molecular Foundation ModelNature Communications (Nat Commun), 2022

Jinho Chang

Jong Chul Ye

AI4CE

197

19 Nov 2022

Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language TasksComputer Vision and Pattern Recognition (CVPR), 2022

...

Yu Qiao

169

17 Nov 2022

Towards All-in-one Pre-training via Maximizing Multi-modal Mutual InformationComputer Vision and Pattern Recognition (CVPR), 2022

Weijie Su

Gao Huang

Yu Qiao

Xiaogang Wang

Jie Zhou

Jifeng Dai

241

17 Nov 2022

I Can't Believe There's No Images! Learning Visual Tasks Using only Language SupervisionIEEE International Conference on Computer Vision (ICCV), 2022

331

17 Nov 2022

UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer

Yi Wang

Yu Qiao

218

154

17 Nov 2022