v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Mojtaba Seyedhosseini

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 1,042 papers shown

From Isolated Islands to Pangea: Unifying Semantic Space for Human Action UnderstandingComputer Vision and Pattern Recognition (CVPR), 2023

...

470

02 Apr 2023

SoftCLIP: Softer Cross-modal Alignment Makes CLIP StrongerAAAI Conference on Artificial Intelligence (AAAI), 2023

212

30 Mar 2023

A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision

...

246

30 Mar 2023

AutoAD: Movie Description in ContextComputer Vision and Pattern Recognition (CVPR), 2023

256

29 Mar 2023

Physics-Driven Diffusion Models for Impact Sound Synthesis from VideosComputer Vision and Pattern Recognition (CVPR), 2023

Kun Su

Kaizhi Qian

Eli Shlizerman

Antonio Torralba

Chuang Gan

VGen AI4CE

304

29 Mar 2023

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

...

382

29 Mar 2023

Unmasked Teacher: Towards Training-Efficient Video Foundation ModelsIEEE International Conference on Computer Vision (ICCV), 2023

Yi Wang

Yu Qiao

532

238

28 Mar 2023

CoRe-Sleep: A Multimodal Fusion Framework for Time Series Robust to Imperfect ModalitiesIEEE transactions on neural systems and rehabilitation engineering (IEEE TNSRE), 2023

Konstantinos Kontras

Christos Chatzichristos

194

27 Mar 2023

IRFL: Image Recognition of Figurative LanguageConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Ron Yosef

Yonatan Bitton

Dafna Shahaf

344

27 Mar 2023

Sigmoid Loss for Language Image Pre-TrainingIEEE International Conference on Computer Vision (ICCV), 2023

1.8K

2,232

27 Mar 2023

Zero-Shot Composed Image Retrieval with Textual InversionIEEE International Conference on Computer Vision (ICCV), 2023

Alberto Baldrati

Lorenzo Agnolucci

Marco Bertini

278

166

27 Mar 2023

Equivariant Similarity for Vision-Language Foundation ModelsIEEE International Conference on Computer Vision (ICCV), 2023

Hanwang Zhang

Zicheng Liu

Lijuan Wang

CoGe

281

25 Mar 2023

VILA: Learning Image Aesthetics from User Comments with Vision-Language PretrainingComputer Vision and Pattern Recognition (CVPR), 2023

Feng Yang

254

24 Mar 2023

Accelerating Vision-Language Pretraining with Free Language ModelingComputer Vision and Pattern Recognition (CVPR), 2023

Teng Wang

Yixiao Ge

Feng Zheng

Ran Cheng

Ying Shan

Xiaohu Qie

Ping Luo

VLM MLLM

176

24 Mar 2023

The effectiveness of MAE pre-pretraining for billion-scale pretrainingIEEE International Conference on Computer Vision (ICCV), 2023

Mannat Singh

Quentin Duval

Kalyan Vasudev Alwala

Haoqi Fan

Vaibhav Aggarwal

...

Piotr Dollár

Christoph Feichtenhofer

377

23 Mar 2023

CoBIT: A Contrastive Bi-directional Image-Text Generation ModelInternational Conference on Learning Representations (ICLR), 2023

210

23 Mar 2023

Weakly Supervised Video Representation Learning with Unaligned Text for Sequential VideosComputer Vision and Pattern Recognition (CVPR), 2023

278

22 Mar 2023

MAGVLT: Masked Generative Vision-and-Language TransformerComputer Vision and Pattern Recognition (CVPR), 2023

129

21 Mar 2023

VideoXum: Cross-modal Visual and Textural Summarization of VideosIEEE transactions on multimedia (IEEE TMM), 2023

381

21 Mar 2023

eP-ALM: Efficient Perceptual Augmentation of Language ModelsIEEE International Conference on Computer Vision (ICCV), 2023

417

20 Mar 2023

EVA-02: A Visual Representation for Neon GenesisImage and Vision Computing (IVC), 2023

400

409

20 Mar 2023

A Region-Prompted Adapter Tuning for Visual Abductive ReasoningACM Multimedia (ACM MM), 2023

403

18 Mar 2023

IRGen: Generative Modeling for Image RetrievalEuropean Conference on Computer Vision (ECCV), 2023

Yidan Zhang

Ting Zhang

Dong Chen

Yujing Wang

Qi Chen

...

Fan Yang

325

17 Mar 2023

Investigating the Role of Attribute Context in Vision-Language Models for Object Recognition and DetectionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Kyle Buettner

Adriana Kovashka

210

17 Mar 2023

Unified Visual Relationship Detection with Vision and Language ModelsIEEE International Conference on Computer Vision (ICCV), 2023

293

16 Mar 2023

Cross-Modal Causal Intervention for Medical Report GenerationIEEE Transactions on Image Processing (IEEE TIP), 2023

329

16 Mar 2023

Lana: A Language-Capable Navigator for Instruction Following and GenerationComputer Vision and Pattern Recognition (CVPR), 2023

237

15 Mar 2023

Architext: Language-Driven Generative Architecture Design

Theodoros Galanos

Antonios Liapis

Georgios N. Yannakakis

VLM AI4CE

292

13 Mar 2023

Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You NeedInternational Journal of Computer Vision (IJCV), 2023

Da-Wei Zhou

Han-Jia Ye

De-Chuan Zhan

Ziwei Liu

CLL

235

168

13 Mar 2023

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional ImagesIEEE International Conference on Computer Vision (ICCV), 2023

Gabriel Stanovsky

460

13 Mar 2023

Scaling Vision-Language Models with Sparse Mixture of ExpertsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yuxiong He

326

13 Mar 2023

ViM: Vision Middleware for Unified Downstream TransferringIEEE International Conference on Computer Vision (ICCV), 2023

Jingren Zhou

233

13 Mar 2023

Multi-metrics adaptively identifies backdoors in Federated learningIEEE International Conference on Computer Vision (ICCV), 2023

262

12 Mar 2023

Multimodal Data Integration for Oncology in the Era of Deep Neural Networks: A Review

Asim Waqas

Aakash Tripathi

Ravichandran Ramachandran

Paul Stewart

Ghulam Rasool

AI4CE

480

11 Mar 2023

ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language GenerationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Yaowei Wang

243

11 Mar 2023

Tag2Text: Guiding Vision-Language Model via Image TaggingInternational Conference on Learning Representations (ICLR), 2023

Xinyu Huang

Youcai Zhang

Jinyu Ma

Weiwei Tian

Rui Feng

Lei Zhang

412

10 Mar 2023

Refined Vision-Language Modeling for Fine-grained Multi-modal Pre-training

142

09 Mar 2023

Interpretable Visual Question Answering Referring to Outside KnowledgeInternational Conference on Information Photonics (ICIP), 2023

He Zhu

Ren Togo

Takahiro Ogawa

Miki Haseyama

138

08 Mar 2023

Your representations are in the network: composable and parallel adaptation for large scale modelsNeural Information Processing Systems (NeurIPS), 2023

297

07 Mar 2023

iBall: Augmenting Basketball Videos with Gaze-moderated Embedded VisualizationsInternational Conference on Human Factors in Computing Systems (CHI), 2023

291

06 Mar 2023

DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only TrainingInternational Conference on Learning Representations (ICLR), 2023

Yi Yang

229

119

06 Mar 2023

Prismer: A Vision-Language Model with Multi-Task Experts

Linxi Fan

315

04 Mar 2023

FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion TasksComputer Vision and Pattern Recognition (CVPR), 2023

Li Zhang

179

04 Mar 2023

Fine-Grained ImageNet Classification in the Wild

Maria Lymperaiou

Konstantinos Thomas

Giorgos Stamou

VLM

157

04 Mar 2023

Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together!International Conference on Learning Representations (ICLR), 2023

210

03 Mar 2023

Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question AnsweringIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

450

03 Mar 2023

Visual Atoms: Pre-training Vision Transformers with Sinusoidal WavesComputer Vision and Pattern Recognition (CVPR), 2023

233

02 Mar 2023

Aligning benchmark datasets for table structure recognitionIEEE International Conference on Document Analysis and Recognition (ICDAR), 2023

216

01 Mar 2023

On the Importance of Feature Representation for Flood Mapping using Classical Machine Learning Approaches

Marlon Nuske

142

01 Mar 2023

Rethinking Efficient Tuning Methods from a Unified Perspective

Zeyinzi Jiang

Jingren Zhou

231

01 Mar 2023