Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2205.01917
Cited By

CoCa: Contrastive Captioners are Image-Text Foundation Models

v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Vijay Vasudevan

Mojtaba Seyedhosseini

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 1,043 papers shown

ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language
Inference

ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

Yiping Ke

332

68

0

17 Jul 2024

Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval

Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval

Takashi Shibata

282

4

0

17 Jul 2024

Open Vocabulary Multi-Label Video Classification

Open Vocabulary Multi-Label Video Classification

Mamshad Nayeem Rizve

Jayakrishnan Unnikrishnan

Benjamin Z. Yao

Trishul Chilimbi

241

5

0

12 Jul 2024

NODE-Adapter: Neural Ordinary Differential Equations for Better
Vision-Language Reasoning

NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning

Zhihai He

Carola-Bibiane Schonlieb

Angelica I Aviles-Rivero

251

3

0

11 Jul 2024

Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement

Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement

346

1

0

11 Jul 2024

TIP: Tabular-Image Pre-training for Multimodal Classification with
Incomplete Data

TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data

Wenjia Bai

264

20

0

10 Jul 2024

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring
Image Segmentation

Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation

Seonghoon Yu

Paul Hongsuck Seo

419

12

0

10 Jul 2024

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Hadi Pour Ansari

Pavan Kumar Anasosalu Vasu

383

7

0

09 Jul 2024

Leveraging Task-Specific Knowledge from LLM for Semi-Supervised 3D
Medical Image Segmentation

Leveraging Task-Specific Knowledge from LLM for Semi-Supervised 3D Medical Image Segmentation

Suruchi Kumari

Swalpa Kumar Roy

Pravendra Singh

224

5

0

06 Jul 2024

Precision at Scale: Domain-Specific Datasets On-Demand

Precision at Scale: Domain-Specific Datasets On-Demand

Jesús M. Rodríguez-de-Vera

Imanol G. Estepa

Ignacio Sarasúa

Bhalaji Nagarajan

250

3

0

03 Jul 2024

FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training
with Limited Resources

FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources

403

5

0

01 Jul 2024

Semantic Compositions Enhance Vision-Language Contrastive Learning

Semantic Compositions Enhance Vision-Language Contrastive Learning

Maxwell Mbabilla Aladago

Lorenzo Torresani

Soroush Vosoughi

178

1

0

01 Jul 2024

PathAlign: A vision-language model for whole slide images in
histopathology

PathAlign: A vision-language model for whole slide images in histopathology

Andrew Sellergren

Lin Yang

...

David F. Steiner

272

28

0

27 Jun 2024

Foundational Models for Pathology and Endoscopy Images: Application for
Gastric Inflammation

Foundational Models for Pathology and Endoscopy Images: Application for Gastric Inflammation

Dennis Veselkov

...

Junior Andrea Pescino

M. Dinis-Ribeiro

T. F. Kanonnikoff

Kirill Veselkov

421

6

0

26 Jun 2024

Diffusion Model-Based Video Editing: A Survey

Diffusion Model-Based Video Editing: A Survey

Rong-Cheng Tu

330

36

0

26 Jun 2024

Visualization Literacy of Multimodal Large Language Models: A
Comparative Study

Visualization Literacy of Multimodal Large Language Models: A Comparative Study

Valerio Pascucci

Shusen Liu

296

12

0

24 Jun 2024

HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image
Analysis

HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis

Guillaume Jaume

Cristina Almagro-Pérez

...

Anurag J. Vaidya

Richard J. Chen

Drew F. K. Williamson

373

86

0

23 Jun 2024

A Simple Framework for Open-Vocabulary Zero-Shot Segmentation

A Simple Framework for Open-Vocabulary Zero-Shot Segmentation

Thomas Stegmüller

Behzad Bozorgtabar

Tinne Tuytelaars

Jean-Philippe Thiran

434

3

0

23 Jun 2024

Multi-modal Transfer Learning between Biological Foundation Models

Multi-modal Transfer Learning between Biological Foundation Models

Juan Jose Garau-Luis

Bernardo P. de Almeida

...

Jan Grzegorzewski

Guillaume Richard

313

12

0

20 Jun 2024

StableSemantics: A Synthetic Language-Vision Dataset of Semantic
Representations in Naturalistic Images

StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

Rushikesh Zawar

Margaret M. Henderson

Michael J. Tarr

189

1

0

19 Jun 2024

Towards a multimodal framework for remote sensing image change retrieval
and captioning

Towards a multimodal framework for remote sensing image change retrieval and captioningIFIP Working Conference on Database Semantics (IWDS), 2024

206

5

0

19 Jun 2024

GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via
Multimodal LLMs

GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs

196

24

0

19 Jun 2024

SeTAR: Out-of-Distribution Detection with Selective Low-Rank
Approximation

SeTAR: Out-of-Distribution Detection with Selective Low-Rank ApproximationNeural Information Processing Systems (NeurIPS), 2024

Yixia Li

Yun Chen

259

7

0

18 Jun 2024

Improving Multi-Agent Debate with Sparse Communication Topology

Improving Multi-Agent Debate with Sparse Communication Topology

Jiageng Zhang

Le Hou

Peter Grabowski

211

63

0

17 Jun 2024

Duoduo CLIP: Efficient 3D Understanding with Multi-View Images

Duoduo CLIP: Efficient 3D Understanding with Multi-View Images

573

4

0

17 Jun 2024

Light Up the Shadows: Enhance Long-Tailed Entity Grounding with
Concept-Guided Vision-Language Models

Light Up the Shadows: Enhance Long-Tailed Entity Grounding with Concept-Guided Vision-Language Models

Qianyu He

Xintao Wang

Yanghua Xiao

145

0

0

16 Jun 2024

Explore the Limits of Omni-modal Pretraining at Scale

Explore the Limits of Omni-modal Pretraining at Scale

Handong Li

253

1

0

13 Jun 2024

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks
and Algorithms

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

...

Baining Guo

291

2

0

13 Jun 2024

Enhancing Domain Adaptation through Prompt Gradient Alignment

Enhancing Domain Adaptation through Prompt Gradient Alignment

Trung Le

572

8

0

13 Jun 2024

mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus

mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus

Matthieu Futeral

Pedro Ortiz Suarez

Cordelia Schmid

449

6

0

13 Jun 2024

ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs

ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs

Wei Lin

M. Jehanzeb Mirza

Jacob A. Hansen

...

Aude Oliva

Leonid Karlinsky

222

16

0

12 Jun 2024

Vision Model Pre-training on Interleaved Image-Text Data via Latent
Compression Learning

Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

Xizhou Zhu

Junjie Wang

...

Bin Li

Yu Qiao

Jifeng Dai

200

8

0

11 Jun 2024

Benchmarking Vision-Language Contrastive Methods for Medical
Representation Learning

Benchmarking Vision-Language Contrastive Methods for Medical Representation Learning

Yasaman Parhizkar

Vahid Reza Khazaie

Michael Colacci

Elham Dolatabadi

Arash Afkanpour

264

1

0

11 Jun 2024

Let Go of Your Labels with Unsupervised Transfer

Let Go of Your Labels with Unsupervised Transfer

Artyom Gadetsky

241

13

0

11 Jun 2024

Bridging Language Gaps in Audio-Text Retrieval

Bridging Language Gaps in Audio-Text Retrieval

Heinrich Dinkel

Yongqing Wang

Jizhong Liu

Junbo Zhang

Yujun Wang

Bin Wang

246

10

0

11 Jun 2024

BrainChat: Decoding Semantic Information from fMRI using Vision-language
Pretrained Models

BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models

Wanaiu Huang

183

4

0

10 Jun 2024

Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data
With Soft Alignment

Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment

Stan Z. Li

254

0

0

09 Jun 2024

Understanding Information Storage and Transfer in Multi-modal Large
Language Models

Understanding Information Storage and Transfer in Multi-modal Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024

Samyadeep Basu

Daniela Massiceti

300

31

0

06 Jun 2024

Low-Rank Similarity Mining for Multimodal Dataset Distillation

Low-Rank Similarity Mining for Multimodal Dataset Distillation

279

11

0

06 Jun 2024

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal
Learning

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning

Alex Jinpeng Wang

Mike Zheng Shou

284

10

0

04 Jun 2024

CODE: Contrasting Self-generated Description to Combat Hallucination in
Large Multi-modal Models

CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models

Junho Kim

Yeonju Kim

Yong Man Ro

222

31

0

04 Jun 2024

Few-Shot Classification of Interactive Activities of Daily Living
(InteractADL)

Few-Shot Classification of Interactive Activities of Daily Living (InteractADL)

Robathan Harries

258

2

0

03 Jun 2024

ED-SAM: An Efficient Diffusion Sampling Approach to Domain
Generalization in Vision-Language Foundation Models

ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models

Thanh-Dat Truong

Bhiksha Raj

Jackson Cothren

269

2

0

03 Jun 2024

UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment

UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment

404

12

0

03 Jun 2024

Quantum Visual Feature Encoding Revisited

Quantum Visual Feature Encoding Revisited

Xuan-Bac Nguyen

Hoang-Quan Nguyen

227

15

0

30 May 2024

QClusformer: A Quantum Transformer-based Framework for Unsupervised
Visual Clustering

QClusformer: A Quantum Transformer-based Framework for Unsupervised Visual Clustering

Xuan-Bac Nguyen

Hoang-Quan Nguyen

Samuel Yen-Chi Chen

287

18

0

30 May 2024

Multi-Modal Generative Embedding Model

Multi-Modal Generative Embedding Model

Yueyi Zhang

Mike Zheng Shou

169

7

0

29 May 2024

CaLa: Complementary Association Learning for Augmenting Composed Image
Retrieval

CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval

303

21

0

29 May 2024

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

Melissa Ferrari

218

1

0

29 May 2024

Wavelet-Based Image Tokenizer for Vision Transformers

Wavelet-Based Image Tokenizer for Vision Transformers

235

7

0

28 May 2024

1 2 3...6 7 8...19 20 21

Page 7 of 21

Pageof 21