v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Mojtaba Seyedhosseini

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 1,042 papers shown

SalFoM: Dynamic Saliency Prediction with Video Foundation ModelsInternational Conference on Pattern Recognition (ICPR), 2024

231

03 Apr 2024

Segment Any 3D Object with LanguageInternational Conference on Learning Representations (ICLR), 2024

Seungjun Lee

Yuyang Zhao

Gim Hee Lee

266

02 Apr 2024

Iterated Learning Improves Compositionality in Large Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024

259

02 Apr 2024

ViTamin: Designing Scalable Vision Models in the Vision-Language EraComputer Vision and Pattern Recognition (CVPR), 2024

Liang-Chieh Chen

415

02 Apr 2024

Fashion Style Editing with Generative Human Prior

305

02 Apr 2024

VLRM: Vision-Language Models act as Reward Models for Image Captioning

186

02 Apr 2024

Streaming Dense Video Captioning

253

01 Apr 2024

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Agneet Chatterjee

Gabriela Ben-Melech Stan

...

Yezhou Yang

306

01 Apr 2024

GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields

Yunsong Wang

Hanlin Chen

Gim Hee Lee

250

01 Apr 2024

MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

Siyuan Qiao

301

28 Mar 2024

Siamese Vision Transformers are Scalable Audio-visual Learners

Yan-Bo Lin

Gedas Bertasius

268

28 Mar 2024

LocCa: Visual Pretraining with Location-aware Captioners

Ibrahim Alabdulmohsin

376

28 Mar 2024

CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models

445

28 Mar 2024

Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP

229

27 Mar 2024

An Image Grid Can Be Worth a Video: Zero-shot Video Question Answering Using a VLM

229

27 Mar 2024

Residual-based Language Models are Free Boosters for Biomedical Imaging

399

26 Mar 2024

DreamLIP: Language-Image Pre-training with Long Captions

307

25 Mar 2024

Open-Set Recognition in the Age of Vision-Language Models

251

25 Mar 2024

Determined Multi-Label Learning via Similarity-Based Prompt

217

25 Mar 2024

Knowledge-Enhanced Dual-stream Zero-shot Composed Image RetrievalComputer Vision and Pattern Recognition (CVPR), 2024

Yuchen Suo

Fan Ma

Linchao Zhu

Yi Yang

241

24 Mar 2024

InternVideo2: Scaling Video Foundation Models for Multimodal Video UnderstandingEuropean Conference on Computer Vision (ECCV), 2024

...

Yifei Huang

Yu Qiao

Yali Wang

Limin Wang

261

104

22 Mar 2024

VidLA: Video-Language Alignment at ScaleComputer Vision and Pattern Recognition (CVPR), 2024

Mamshad Nayeem Rizve

Fan Fei

Jayakrishnan Unnikrishnan

Mubarak Shah

224

21 Mar 2024

Few-Shot Adversarial Prompt Learning on Vision-Language Models

Xiaobo Xia

Bo Han

209

21 Mar 2024

MyVLM: Personalizing VLMs for User-Specific Queries

Yuval Alaluf

Elad Richardson

Sergey Tulyakov

Kfir Aberman

Daniel Cohen-Or

MLLM VLM

309

21 Mar 2024

Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection

Tim Salzmann

Markus Ryll

Alex Bewley

Matthias Minderer

281

21 Mar 2024

Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding

Xiaojun Chang

Meng Wang

301

21 Mar 2024

MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining

Di Wang

Jing Zhang

Minqiang Xu

Lin Liu

...

Bo Du

235

100

20 Mar 2024

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

...

326

19 Mar 2024

Dynamic Tuning Towards Parameter and Inference Efficiency for ViT AdaptationNeural Information Processing Systems (NeurIPS), 2024

Gao Huang

Yang You

323

18 Mar 2024

EffiVED:Efficient Video Editing via Text-instruction Diffusion Models

262

18 Mar 2024

Generative Region-Language Pretraining for Open-Ended Object DetectionComputer Vision and Pattern Recognition (CVPR), 2024

Jianfei Cai

222

15 Mar 2024

RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-trainingIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

464

15 Mar 2024

XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context OptimizationInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

Yequan Bie

Luyang Luo

Zhixuan Chen

Hao Chen

191

14 Mar 2024

Can We Talk Models Into Seeing the World Differently?International Conference on Learning Representations (ICLR), 2024

Muhammad Jehanzeb Mirza

Margret Keuper

VLM

251

14 Mar 2024

Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training FrameworkComputer Vision and Pattern Recognition (CVPR), 2024

Vu Minh Hieu Phan

Yutong Xie

Yuankai Qi

Lingqiao Liu

Liyang Liu

Qi Wu

362

12 Mar 2024

Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized Visual Class DiscoveryEuropean Conference on Computer Vision (ECCV), 2024

252

12 Mar 2024

QUASAR: QUality and Aesthetics Scoring with Advanced RepresentationsIEEE Access (IEEE Access), 2024

257

11 Mar 2024

RESTORE: Towards Feature Shift for Vision-Language Prompt Learning

Yuncheng Yang

Zuopeng Yang

Yulei Qin

325

10 Mar 2024

CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?International Conference on Learning Representations (ICLR), 2024

Ibrahim Alabdulmohsin

211

07 Mar 2024

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

...

321

05 Mar 2024

HeAR -- Health Acoustic Representations

...

237

04 Mar 2024

Differentially Private Representation Learning via Image Captioning

276

04 Mar 2024

Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition

Henghui Ding

344

03 Mar 2024

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

...

Hsin-Ying Lee

Ming-Hsuan Yang

369

342

29 Feb 2024

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

...

Yu Qiao

318

29 Feb 2024

SeD: Semantic-Aware Discriminator for Image Super-Resolution

Hanxin Zhu

219

29 Feb 2024

Deep Learning for Cross-Domain Data Fusion in Urban Computing: Taxonomy, Advances, and Outlook

Haomin Wen

...

Junbo Zhang

Yong Li

Tianrui Li

Yu Zheng

Yuxuan Liang

HAI AI4TS

324

29 Feb 2024

Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction

Yifei Chen

269

29 Feb 2024

MMSR: Symbolic Regression is a Multimodal Task

234

28 Feb 2024

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Kai Zhang

...

424

493

27 Feb 2024