v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Mojtaba Seyedhosseini

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 1,042 papers shown

CLIPose: Category-Level Object Pose Estimation with Pre-trained Vision-Language Knowledge

336

24 Feb 2024

User-LLM: Efficient LLM Contextualization with User Embeddings

273

21 Feb 2024

VideoPrism: A Foundational Visual Encoder for Video Understanding

...

386

20 Feb 2024

PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

238

16 Feb 2024

Revisiting Feature Prediction for Learning Visual Representations from Video

345

177

15 Feb 2024

ProtChatGPT: Towards Understanding Proteins with Large Language Models

Chao Wang

Hehe Fan

Ruijie Quan

Yi Yang

232

15 Feb 2024

Can Text-to-image Model Assist Multi-modal Learning for Visual Recognition with Visual Modality Missing?

Tiantian Feng

Daniel Yang

Digbalay Bose

Shrikanth Narayanan

278

14 Feb 2024

Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision

Xiaobo Xia

316

14 Feb 2024

PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models

307

13 Feb 2024

PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs

205

13 Feb 2024

Towards a Foundation Model for Brain Age Prediction using coVariance Neural Networks

Saurabh Sihag

Gonzalo Mateos

Alejandro Ribeiro

231

12 Feb 2024

An Empirical Study Into What Matters for Calibrating Vision-Language ModelsInternational Conference on Machine Learning (ICML), 2024

Tom Gedeon

278

12 Feb 2024

Distilling Symbolic Priors for Concept Learning into Neural Networks

Ioana Marinescu

R. Thomas McCoy

Thomas Griffiths

198

10 Feb 2024

Cacophony: An Improved Contrastive Audio-Text ModelIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2024

313

10 Feb 2024

CIC: A Framework for Culturally-Aware Image Captioning

Youngsik Yun

Jihie Kim

VLM

415

08 Feb 2024

LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors

172

07 Feb 2024

Progress and Opportunities of Foundation Models in Bioinformatics

216

06 Feb 2024

Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality GapInternational Conference on Learning Representations (ICLR), 2024

Christopher Liao

Christian So

Theodoros Tsiligkaridis

Brian Kulis

385

06 Feb 2024

Image-Caption Encoding for Improving Zero-Shot Generalization

Eric Yang Yu

Christopher Liao

Sathvik Ravi

Theodoros Tsiligkaridis

Brian Kulis

OODD VLM

149

05 Feb 2024

M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval

Ming Yang

254

31 Jan 2024

A Survey on Data Augmentation in Large Model Era

485

27 Jan 2024

Segment Any Cell: A SAM-based Auto-prompting Fine-tuning Framework for Nuclei Segmentation

226

24 Jan 2024

On the Efficacy of Text-Based Input Modalities for Action Anticipation

Apoorva Beedu

Karan Samel

Irfan Essa

403

23 Jan 2024

Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning?International Conference on Learning Representations (ICLR), 2024

373

23 Jan 2024

CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation

Zhihong Chen

Maya Varma

Jean-Benoit Delbrouck

Magdalini Paschali

Louis Blankemeier

...

Cameron Olsen

Tanishq Mathew Abraham

242

22 Jan 2024

Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion TransformersInternational Conference on Machine Learning (ICML), 2024

Katherine Crowson

Stefan Andreas Baumann

Alex Birch

Tanishq Mathew Abraham

Daniel Z. Kaplan

Enrico Shippole

337

21 Jan 2024

Exploring scalable medical image encoders beyond text supervision

Fernando Pérez-García

...

Maria T. A. Wetscherek

512

19 Jan 2024

Supervised Fine-tuning in turn Improves Visual Foundation Models

Chun Yuan

Ying Shan

VLM CLIP

246

18 Jan 2024

MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer

...

Yu Qiao

240

18 Jan 2024

GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition

431

18 Jan 2024

Improving fine-grained understanding in image-text pre-training

...

220

18 Jan 2024

Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation

269

18 Jan 2024

Scalable Pre-training of Large Autoregressive Image ModelsInternational Conference on Machine Learning (ICML), 2024

Alaaeldin El-Nouby

Michal Klein

Shuangfei Zhai

Miguel Angel Bautista

289

111

16 Jan 2024

Concept-Guided Prompt Learning for Generalization in Vision-Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

278

15 Jan 2024

Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language ModelEuropean Conference on Artificial Intelligence (ECAI), 2024

340

12 Jan 2024

Distilling Vision-Language Models on Millions of VideosComputer Vision and Pattern Recognition (CVPR), 2024

...

279

11 Jan 2024

Evaluating Data Augmentation Techniques for Coffee Leaf Disease ClassificationInternational Conference on Agents and Artificial Intelligence (ICAART), 2024

Adrian Gheorghiu

Iulian-Marius Taiatu

Dumitru-Clementin Cercel

Iuliana Marin

Florin-Catalin Pop

228

11 Jan 2024

Learning to Prompt with Text Only Supervision for Vision-Language Models

Muhammad Uzair Khattak

Muhammad Ferjad Naeem

Muzammal Naseer

Luc Van Gool

F. Tombari

VLM VPVLM

288

04 Jan 2024

SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal AlignmentInternational Conference on Machine Learning (ICML), 2024

Ming Yang

233

04 Jan 2024

Data-Centric Foundation Models in Computational Healthcare: A Survey

Jin Gao

313

04 Jan 2024

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

317

03 Jan 2024

Incorporating Geo-Diverse Knowledge into Prompting for Increased Geographical Robustness in Object RecognitionComputer Vision and Pattern Recognition (CVPR), 2024

410

03 Jan 2024

AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided DiagnosisIEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2024

Qiuhui Chen

Yi Hong

MedIm

414

02 Jan 2024

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

Kevin Lin

208

01 Jan 2024

Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Haoning Wu

Zicheng Zhang

Weixia Zhang

Chaofeng Chen

Liang Liao

...

Wenxiu Sun

Qiong Yan

Xiongkuo Min

Guangtao Zhai

Weisi Lin

277

359

28 Dec 2023

Prompt Expansion for Adaptive Text-to-Image Generation

169

27 Dec 2023

LeanVec: Searching vectors faster by making them fit

257

26 Dec 2023

UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces

Huchuan Lu

Ping Luo

273

25 Dec 2023

Unveiling Backbone Effects in CLIP: Exploring Representational Synergies and Variances

Cristian Rodriguez-Opazo

Edison Marrese-Taylor

185

22 Dec 2023

Leveraging Habitat Information for Fine-grained Bird Identification

416

22 Dec 2023