Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm

11 October 2021

Wanli Ouyang

Papers citing "Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm"

50 / 93 papers shown

Title
X-Transfer Attacks: Towards Super Transferable Adversarial Attacks on CLIP Hanxun Huang Sarah Monazam Erfani Yige Li Xingjun Ma James Bailey AAML 36 0 0 08 May 2025
EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observations and Wikipedia Valerie Zermatten J. Castillo-Navarro Pallavi Jain D. Tuia Diego Marcos 62 0 0 28 Apr 2025
Impact of Language Guidance: A Reproducibility Study Cherish Puniani Advika Sinha Shree Singhi Aayan Yadav VLM 42 0 0 10 Apr 2025
ProAPO: Progressively Automatic Prompt Optimization for Visual Classification Xiangyan Qu Gaopeng Gou Jiamin Zhuang Jing Yu Kun Song Qihao Wang Yili Li Gang Xiong VLM 75 0 0 13 Mar 2025
Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion Marco Mistretta Alberto Baldrati Lorenzo Agnolucci Marco Bertini Andrew D. Bagdanov CLIP VLM 99 2 0 06 Feb 2025
ProKeR: A Kernel Perspective on Few-Shot Adaptation of Large Vision-Language Models Yassir Bendou Amine Ouasfi Vincent Gripon A. Boukhayma VLM 51 0 0 19 Jan 2025
Beyond Accuracy: On the Effects of Fine-tuning Towards Vision-Language Model's Prediction Rationality Qitong Wang Tang Li Kien X. Nguyen Xi Peng 70 0 0 17 Dec 2024
CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance Chu Myaet Thwal Ye Lin Tun Minh N. H. Nguyen Eui-nam Huh Choong Seon Hong VLM 74 0 0 05 Dec 2024
COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training Sanghwan Kim Rui Xiao Mariana-Iuliana Georgescu Stephan Alaniz Zeynep Akata VLM 70 1 0 02 Dec 2024
LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty Joey Wilson Ruihan Xu Yile Sun Parker Ewen Minghan Zhu Kira Barton Maani Ghaffari 36 0 0 15 Oct 2024
Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity Hanqi Jiang Xixuan Hao Yuzhou Huang Chong Ma Jiaxun Zhang Yi Pan Ruimao Zhang MedIm 35 0 0 01 Oct 2024
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation Kun Yuan V. Srivastav Nassir Navab N. Padoy 44 7 0 30 Sep 2024
Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography Yuexi Du John Onofrey Nicha Dvornek VLM 43 1 0 26 Sep 2024
ComAlign: Compositional Alignment in Vision-Language Models Ali Abdollah Amirmohammad Izadi Armin Saghafian Reza Vahidimajd Mohammad Mozafari Amirreza Mirzaei Mohammadmahdi Samiei M. Baghshah CoGe VLM 30 0 0 12 Sep 2024
A Multi-Modal Deep Learning Based Approach for House Price Prediction Md Hasebul Hasan Md Abid Jahan Mohammed Eunus Ali Yuan-Fang Li Timos Sellis 16 0 0 09 Sep 2024
ET tu, CLIP? Addressing Common Object Errors for Unseen Environments Ye Won Byun Cathy Jiao Shahriar Noroozizadeh Jimin Sun Rosa Vitiello VLM 27 1 0 25 Jun 2024
Benchmarking Vision-Language Contrastive Methods for Medical Representation Learning Shuvendu Roy Yasaman Parhizkar Franklin Ogidi Vahid Reza Khazaie Michael Colacci Ali Etemad Elham Dolatabadi Arash Afkanpour VLM 40 1 0 11 Jun 2024
Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models Himangi Mittal Nakul Agarwal Shao-Yuan Lo Kwonjoon Lee 30 13 0 30 May 2024
Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography Shantanu Ghosh Clare B. Poynton Shyam Visweswaran Kayhan Batmanghelich VLM 32 8 0 20 May 2024
Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models Yifei Ming Yixuan Li VLM 28 7 0 02 May 2024
MediFact at MEDIQA-M3G 2024: Medical Question Answering in Dermatology with Multimodal Learning Nadia Saeed MedIm 30 2 0 27 Apr 2024
RankCLIP: Ranking-Consistent Language-Image Pretraining Yiming Zhang Zhuokai Zhao Zhaorun Chen Zhili Feng Zenghui Ding Yining Sun SSL VLM 43 7 0 15 Apr 2024
Training-Free Semantic Segmentation via LLM-Supervision Wenfang Sun Yingjun Du Gaowen Liu Ramana Rao Kompella Cees G. M. Snoek VLM 35 2 0 31 Mar 2024
Heterogeneous Contrastive Learning for Foundation Models and Beyond Lecheng Zheng Baoyu Jing Zihao Li Hanghang Tong Jingrui He VLM 26 19 0 30 Mar 2024
Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization Yuhang Zang Hanlin Goh Josh Susskind Chen Huang VLM 24 12 0 29 Jan 2024
Towards 3D Molecule-Text Interpretation in Language Models Sihang Li Zhiyuan Liu Yancheng Luo Xiang Wang Xiangnan He Kenji Kawaguchi Tat-Seng Chua Qi Tian AI4CE 24 42 0 25 Jan 2024
3VL: Using Trees to Improve Vision-Language Models' Interpretability Nir Yellinek Leonid Karlinsky Raja Giryes CoGe VLM 49 4 0 28 Dec 2023
Black-Box Tuning of Vision-Language Models with Effective Gradient Approximation Zixian Guo Yuxiang Wei Ming-Yu Liu Zhilong Ji Jinfeng Bai Yiwen Guo Wangmeng Zuo VLM 27 8 0 26 Dec 2023
TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing Lianrui Mu Jianhong Bai Xiaoxuan He Jiangnan Ye Xiaoyu Liang Yuchen Yang Jiedong Zhuang Haoji Hu 22 2 0 30 Nov 2023
CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts Yichao Cai Yuhang Liu Zhen Zhang Javen Qinfeng Shi CLIP VLM 24 5 0 28 Nov 2023
SILC: Improving Vision Language Pretraining with Self-Distillation Muhammad Ferjad Naeem Yongqin Xian Xiaohua Zhai Lukas Hoyer Luc Van Gool F. Tombari VLM 17 32 0 20 Oct 2023
Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook Ming Jin Qingsong Wen Yuxuan Liang Chaoli Zhang Siqiao Xue ... Shirui Pan Vincent S. Tseng Yu Zheng Lei Chen Hui Xiong AI4TS SyDa 31 116 0 16 Oct 2023
Improving Compositional Text-to-image Generation with Large Vision-Language Models Song Wen Guian Fang Renrui Zhang Peng Gao Hao Dong Dimitris N. Metaxas 21 17 0 10 Oct 2023
Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features Hila Levi Guy Heller Dan Levi Ethan Fetaya OCL VLM 14 3 0 26 Sep 2023
Sound Source Localization is All about Cross-Modal Alignment Arda Senocak H. Ryu Junsik Kim Tae-Hyun Oh Hanspeter Pfister Joon Son Chung 19 18 0 19 Sep 2023
Blending-NeRF: Text-Driven Localized Editing in Neural Radiance Fields H. Song Seokhun Choi Hoseok Do Chul Lee Taehyeong Kim DiffM 24 24 0 23 Aug 2023
GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-training Xi Deng Han Shi Runhu Huang Changlin Li Hang Xu Jianhua Han James T. Kwok Shen Zhao Wei Zhang Xiaodan Liang CLIP VLM 29 3 0 22 Aug 2023
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models K. Poudel Manish Dhakal Prasiddha Bhandari Rabin Adhikari Safal Thapaliya Bishesh Khanal VLM 28 17 0 15 Aug 2023
VisoGender: A dataset for benchmarking gender bias in image-text pronoun resolution S. Hall F. G. Abrantes Hanwen Zhu Grace A. Sodunke Aleksandar Shtedritski Hannah Rose Kirk CoGe 11 39 0 21 Jun 2023
TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding Chenchi Zhang Jun Xiao Lei Chen Jian Shao Long Chen VLM LRM 22 2 0 19 May 2023
CLIP-GCD: Simple Language Guided Generalized Category Discovery Rabah Ouldnoughi Chia-Wen Kuo Z. Kira VLM 11 14 0 17 May 2023
RECLIP: Resource-efficient CLIP by Training with Small Images Runze Li Dahun Kim B. Bhanu Weicheng Kuo VLM CLIP 22 12 0 12 Apr 2023
Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition Shuhuai Ren Aston Zhang Yi Zhu Shuai Zhang Shuai Zheng Mu Li Alexander J. Smola Xu Sun VPVLM VLM 19 28 0 10 Apr 2023
Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples H. Ryu Arda Senocak In So Kweon Joon Son Chung VLM 19 8 0 30 Mar 2023
Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World Qifan Yu Juncheng Li Yuehua Wu Siliang Tang Wei Ji Yueting Zhuang 25 34 0 23 Mar 2023
CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning Hritik Bansal Nishad Singhi Yu Yang Fan Yin Aditya Grover Kai-Wei Chang AAML 29 41 0 06 Mar 2023
CLIPood: Generalizing CLIP to Out-of-Distributions Yang Shu Xingzhuo Guo Jialong Wu Ximei Wang Jianmin Wang Mingsheng Long OODD VLM 41 74 0 02 Feb 2023
Advancing Radiograph Representation Learning with Masked Record Modeling Hong-Yu Zhou Chenyu Lian Lian-cheng Wang Yizhou Yu MedIm 23 55 0 30 Jan 2023
Vision Learners Meet Web Image-Text Pairs Bingchen Zhao Quan Cui Hao Wu Osamu Yoshie Cheng Yang Oisin Mac Aodha VLM 19 5 0 17 Jan 2023
RILS: Masked Visual Reconstruction in Language Semantic Space Shusheng Yang Yixiao Ge Kun Yi Dian Li Ying Shan Xiaohu Qie Xinggang Wang CLIP 35 11 0 17 Jan 2023