Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Home
Papers

All Papers

0 / 0 papers shown

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2205.01917
Cited By

CoCa: Contrastive Captioners are Image-Text Foundation Models

v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Vijay Vasudevan

Mojtaba Seyedhosseini

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 1,042 papers shown

Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation

Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation

284

0

0

03 Dec 2025

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Masaki Kawamura

Hirokatsu Kataoka

193

0

0

28 Nov 2025

Scaling Foundation Models for Radar Scene Understanding

Scaling Foundation Models for Radar Scene Understanding

Dinesh Bharadia

231

0

0

26 Nov 2025

Advancing Image Classification with Discrete Diffusion Classification Modeling

Advancing Image Classification with Discrete Diffusion Classification Modeling

206

0

0

25 Nov 2025

ReMatch: Boosting Representation through Matching for Multimodal Retrieval

ReMatch: Boosting Representation through Matching for Multimodal Retrieval

227

0

0

24 Nov 2025

BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

157

0

0

20 Nov 2025

From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models

From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models

450

0

0

17 Nov 2025

MergeSlide: Continual Model Merging and Task-to-Class Prompt-Aligned Inference for Lifelong Learning on Whole Slide Images

MergeSlide: Continual Model Merging and Task-to-Class Prompt-Aligned Inference for Lifelong Learning on Whole Slide Images

Khang Phuoc-Quy Nguyen

306

0

0

17 Nov 2025

Uni-Hema: Unified Model for Digital Hematopathology

Uni-Hema: Unified Model for Digital Hematopathology

148

0

0

17 Nov 2025

Medical Knowledge Intervention Prompt Tuning for Medical Image Classification

Medical Knowledge Intervention Prompt Tuning for Medical Image ClassificationIEEE Transactions on Medical Imaging (IEEE TMI), 2025

196

1

0

16 Nov 2025

From Classification to Cross-Modal Understanding: Leveraging Vision-Language Models for Fine-Grained Renal Pathology

From Classification to Cross-Modal Understanding: Leveraging Vision-Language Models for Fine-Grained Renal Pathology

...

Steven Salvatoree

120

0

0

15 Nov 2025

Learning with Preserving for Continual Multitask Learning

Learning with Preserving for Continual Multitask Learning

188

0

0

11 Nov 2025

SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking

SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking

Changzheng Chen

112

0

0

05 Nov 2025

Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

...

268

0

0

04 Nov 2025

SLIP: Structural-aware Language-Image Pretraining for Vision-Language Alignment

SLIP: Structural-aware Language-Image Pretraining for Vision-Language Alignment

197

0

0

04 Nov 2025

FOCUS: Efficient Keyframe Selection for Long Video Understanding

FOCUS: Efficient Keyframe Selection for Long Video Understanding

152

0

0

31 Oct 2025

MM-OPERA: Benchmarking Open-ended Association Reasoning for Large Vision-Language Models

MM-OPERA: Benchmarking Open-ended Association Reasoning for Large Vision-Language Models

...

323

0

0

30 Oct 2025

Distilling Multilingual Vision-Language Models: When Smaller Models Stay Multilingual

Distilling Multilingual Vision-Language Models: When Smaller Models Stay Multilingual

Sukrit Sriratanawilai

Jhayahgrit Thongwat

Romrawin Chumpu

Patomporn Payoungkhamdee

Sarana Nutanong

Peerat Limkonchotiwat

150

0

0

30 Oct 2025

[De|Re]constructing VLMs' Reasoning in Counting

[De|Re]constructing VLMs' Reasoning in Counting

Gabriel Roccabruna

Massimo Rizzoli

Seyed Mahed Mousavi

Giuseppe Riccardi

202

1

0

22 Oct 2025

A Matter of Time: Revealing the Structure of Time in Vision-Language Models

A Matter of Time: Revealing the Structure of Time in Vision-Language Models

Manuela Waldner

Matthias Zeppelzauer

116

0

0

22 Oct 2025

Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents

Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents

Alex Jinpeng Wang

Mike Zheng Shou

132

1

0

21 Oct 2025

CovMatch: Cross-Covariance Guided Multimodal Dataset Distillation with Trainable Text Encoder

CovMatch: Cross-Covariance Guided Multimodal Dataset Distillation with Trainable Text Encoder

149

0

0

21 Oct 2025

Calibrated Principal Component Regression

Calibrated Principal Component Regression

Yixuan Florence Wu

90

0

0

21 Oct 2025

Enhancing Compositional Reasoning in CLIP via Reconstruction and Alignment of Text Descriptions

Enhancing Compositional Reasoning in CLIP via Reconstruction and Alignment of Text Descriptions

172

0

0

18 Oct 2025

Self-Augmented Visual Contrastive Decoding

Self-Augmented Visual Contrastive Decoding

133

0

0

15 Oct 2025

End-to-End Multi-Modal Diffusion Mamba

End-to-End Multi-Modal Diffusion Mamba

130

3

0

15 Oct 2025

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

...

180

7

0

12 Oct 2025

From Generic to Specialized: A Subspecialty Diagnostic System Powered by Self-Supervised Learning for Cervical Histopathology

From Generic to Specialized: A Subspecialty Diagnostic System Powered by Self-Supervised Learning for Cervical Histopathology

...

104

0

0

11 Oct 2025

Vision Language Models: A Survey of 26K Papers

Vision Language Models: A Survey of 26K Papers

133

0

0

10 Oct 2025

Approximate Domain Unlearning for Vision-Language Models

Approximate Domain Unlearning for Vision-Language Models

Hirokatsu Kataoka

185

0

0

09 Oct 2025

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

Mitchell Keren Taraday

109

1

0

08 Oct 2025

AgentDR Dynamic Recommendation with Implicit Item-Item Relations via LLM-based Agents

AgentDR Dynamic Recommendation with Implicit Item-Item Relations via LLM-based Agents

Nurendra Choudhary

Karthik Subbian

148

0

0

07 Oct 2025

Assessing Foundation Models for Mold Colony Detection with Limited Training Data

Assessing Foundation Models for Mold Colony Detection with Limited Training Data

Matthew Copping

87

0

0

01 Oct 2025

Are Time Series Foundation Models Susceptible to Catastrophic Forgetting?

Are Time Series Foundation Models Susceptible to Catastrophic Forgetting?

Martial Mermillod

AI4TS AAML AI4CE

140

0

0

01 Oct 2025

Generalized Contrastive Learning for Universal Multimodal Retrieval

Generalized Contrastive Learning for Universal Multimodal Retrieval

188

2

0

30 Sep 2025

Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline

Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline

194

2

0

30 Sep 2025

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

SupCLAP: Controlling Optimization Trajectory Drift in Audio-Text Contrastive Learning with Support Vector Regularization

112

2

0

25 Sep 2025

Learning Contrastive Multimodal Fusion with Improved Modality Dropout for Disease Detection and Prediction

Learning Contrastive Multimodal Fusion with Improved Modality Dropout for Disease Detection and PredictionInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

140

0

0

22 Sep 2025

Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation

Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation

177

2

0

19 Sep 2025

Region-Aware Deformable Convolutions

Region-Aware Deformable Convolutions

Abolfazl Saheban Maleki

146

0

0

18 Sep 2025

Which Direction to Choose? An Analysis on the Representation Power of Self-Supervised ViTs in Downstream Tasks

Which Direction to Choose? An Analysis on the Representation Power of Self-Supervised ViTs in Downstream Tasks

Yannis Kaltampanidis

Alexandros Doumanoglou

144

0

0

18 Sep 2025

Deep Learning-Driven Peptide Classification in Biological Nanopores

Deep Learning-Driven Peptide Classification in Biological Nanopores

Julian Hoßbach

Jan C. Behrends

113

0

0

17 Sep 2025

AToken: A Unified Tokenizer for Vision

AToken: A Unified Tokenizer for Vision

236

7

0

17 Sep 2025

Maps for Autonomous Driving: Full-process Survey and Frontiers

Maps for Autonomous Driving: Full-process Survey and Frontiers

136

0

0

16 Sep 2025

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Benjamin Shiue-Hal Chou

Nick Eliopoulos

George K. Thiruvathukal

Kristen Yeon-Ji Yun

140

0

0

16 Sep 2025

Synthetic Captions for Open-Vocabulary Zero-Shot Segmentation

Synthetic Captions for Open-Vocabulary Zero-Shot Segmentation

Vijay Veerabadran

Michael L. Iuzzolino

95

0

0

15 Sep 2025

Robustifying Diffusion-Denoised Smoothing Against Covariate Shift

Robustifying Diffusion-Denoised Smoothing Against Covariate Shift

Mostafa Tavassolipour

Babak N. Araabi

125

0

0

13 Sep 2025

Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation

Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation

Michael Ross Boone

...

Chao-Han Huck Yang

182

2

0

09 Sep 2025

Fine-Tuning Vision-Language Models for Visual Navigation Assistance

Fine-Tuning Vision-Language Models for Visual Navigation Assistance

58

0

0

09 Sep 2025

Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding

Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding

169

0

0

08 Sep 2025

1 2 3 4...19 20 21