v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Mojtaba Seyedhosseini

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 1,042 papers shown

With Great Backbones Comes Great Adversarial Transferability

358

21 Jan 2025

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific LiteratureComputer Vision and Pattern Recognition (CVPR), 2025

...

Alfred Seunghoon Song

Robert Tibshirani

Serena Yeung-Levy

LM&MA VLM MedIm

468

13 Jan 2025

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding TasksInternational Conference on Learning Representations (ICLR), 2024

590

03 Jan 2025

Tuning Vision-Language Models with Candidate Labels by Prompt Alignment

450

31 Dec 2024

Improving Generated and Retrieved Knowledge Combination Through Zero-shot Generation

368

25 Dec 2024

Cross-Modal Few-Shot Learning with Second-Order Neural Ordinary Differential EquationsAAAI Conference on Artificial Intelligence (AAAI), 2024

Carola-Bibiane Schonlieb

Yuyan Chen

Angelica I Aviles-Rivero

AI4TS

321

20 Dec 2024

Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven OptimizationAAAI Conference on Artificial Intelligence (AAAI), 2024

Yue Zhang

Liqiang Jing

Vibhav Gogate

419

19 Dec 2024

Bringing Multimodality to Amazon Visual Search SystemKnowledge Discovery and Data Mining (KDD), 2024

...

254

17 Dec 2024

CATSplat: Context-Aware Transformer with Spatial Guidance for Generalizable 3D Gaussian Splatting from A Single-View Image

353

17 Dec 2024

LLMs are Also Effective Embedding Models: An In-depth Overview

396

17 Dec 2024

CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational PathologyComputer Vision and Pattern Recognition (CVPR), 2024

288

16 Dec 2024

SAMIC: Segment Anything with In-Context Spatial Prompt Engineering

327

16 Dec 2024

UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain RetrievalIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

352

14 Dec 2024

DiffCLIP: Few-shot Language-driven Multimodal ClassifierAAAI Conference on Artificial Intelligence (AAAI), 2024

263

10 Dec 2024

Visual Lexicon: Rich Image Features in Language SpaceComputer Vision and Pattern Recognition (CVPR), 2024

208

09 Dec 2024

LLaVA-SpaceSGG: Visual Instruct Tuning for Open-vocabulary Scene Graph Generation with Enhanced Spatial RelationsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

292

09 Dec 2024

Unified Framework for Open-World Compositional Zero-shot LearningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

298

05 Dec 2024

FLAIR: VLM with Fine-grained Language-informed Image RepresentationsComputer Vision and Pattern Recognition (CVPR), 2024

Rui Xiao

Sanghwan Kim

Mariana-Iuliana Georgescu

Zeynep Akata

Stephan Alaniz

VLM CLIP

312

04 Dec 2024

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2024

Sanghwan Kim

Rui Xiao

Mariana-Iuliana Georgescu

Stephan Alaniz

Zeynep Akata

VLM

705

02 Dec 2024

CAREL: Instruction-guided reinforcement learning with cross-modal auxiliary objectives

Armin Saghafian

Amirmohammad Izadi

Negin Hashemi Dijujin

M. Baghshah

456

29 Nov 2024

Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads

604

28 Nov 2024

VLM-HOI: Vision Language Models for Interpretable Human-Object Interaction Analysis

343

27 Nov 2024

Evaluating Vision-Language Models as Evaluators in Path PlanningComputer Vision and Pattern Recognition (CVPR), 2024

664

27 Nov 2024

ResCLIP: Residual Attention for Training-free Dense Vision-language InferenceComputer Vision and Pattern Recognition (CVPR), 2024

288

24 Nov 2024

Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation

628

24 Nov 2024

Semantic Shield: Defending Vision-Language Models Against Backdooring and Poisoning via Fine-grained Knowledge AlignmentComputer Vision and Pattern Recognition (CVPR), 2024

Alvi Md Ishmam

Christopher Thomas

AAML

328

23 Nov 2024

OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining

...

438

23 Nov 2024

Towards a Comprehensive Benchmark for Pathological Lymph Node Metastasis in Breast Cancer Sections

178

16 Nov 2024

Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation

303

14 Nov 2024

SCAN: Bootstrapping Contrastive Pre-training for Data Efficiency

Yangyang Guo

Mohan S. Kankanhalli

VLM

14 Nov 2024

Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional VideosComputer Vision and Pattern Recognition (CVPR), 2024

424

13 Nov 2024

Hierarchical Visual Feature Aggregation for OCR-Free Document UnderstandingNeural Information Processing Systems (NeurIPS), 2024

141

08 Nov 2024

Classification Done Right for Vision-Language Pre-TrainingNeural Information Processing Systems (NeurIPS), 2024

419

05 Nov 2024

Domain Expansion and Boundary Growth for Open-Set Single-Source Domain GeneralizationIEEE transactions on multimedia (IEEE TMM), 2024

318

05 Nov 2024

INQUIRE: A Natural World Text-to-Image Retrieval BenchmarkNeural Information Processing Systems (NeurIPS), 2024

369

04 Nov 2024

Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD MapComputer Vision and Pattern Recognition (CVPR), 2024

611

31 Oct 2024

EMMA: End-to-End Multimodal Model for Autonomous Driving

...

433

116

30 Oct 2024

AlphaChimp: Tracking and Behavior Recognition of Chimpanzees

449

22 Oct 2024

Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

Weipeng Chen

183

21 Oct 2024

xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs

...

310

21 Oct 2024

TIPS: Text-Image Pretraining with Spatial awarenessInternational Conference on Learning Representations (ICLR), 2024

Kevis-Kokitsi Maninis

...

Mojtaba Seyedhosseini

Howard Zhou

Andre Araujo

VLM

439

21 Oct 2024

Assistive AI for Augmenting Human Decision-making

Natabara Máté Gyöngyössy

Krisztina Menyhárd-Balázs

András Simonyi

Patrick van der Smagt

Zsolt Ződi

András Lőrincz

306

18 Oct 2024

Dual Prototype Evolving for Test-Time Generalization of Vision-Language ModelsNeural Information Processing Systems (NeurIPS), 2024

261

16 Oct 2024

DRACO: A Denoising-Reconstruction Autoencoder for Cryo-EMNeural Information Processing Systems (NeurIPS), 2024

247

15 Oct 2024

Locality Alignment Improves Vision-Language ModelsInternational Conference on Learning Representations (ICLR), 2024

592

14 Oct 2024

Mamba4Cast: Efficient Zero-Shot Time Series Forecasting with State Space Models

Sathya Kamesh Bhethanabhotla

Omar Swelam

Julien N. Siems

David Salinas

Katharina Eggensperger

Mamba AI4TS AI4CE

217

12 Oct 2024

Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation

198

11 Oct 2024

On a Hidden Property in Computational Imaging

202

11 Oct 2024

LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic TextsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

350

10 Oct 2024

Evaluating Computational Pathology Foundation Models for Prostate Cancer Grading under Distribution Shifts

Fredrik K. Gustafsson

Mattias Rantalainen

OOD MedIm

200

09 Oct 2024