SLIP: Self-supervision meets Language-Image Pre-training

23 December 2021

Papers citing "SLIP: Self-supervision meets Language-Image Pre-training"

50 / 337 papers shown

Title
On the Generalization of Multi-modal Contrastive Learning Qi Zhang Yifei Wang Yisen Wang 17 24 0 07 Jun 2023
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners Yonglong Tian Lijie Fan Phillip Isola Huiwen Chang Dilip Krishnan VLM DiffM 11 139 0 01 Jun 2023
Improving CLIP Training with Language Rewrites Lijie Fan Dilip Krishnan Phillip Isola Dina Katabi Yonglong Tian BDL VLM CLIP 11 155 0 31 May 2023
Med-UniC: Unifying Cross-Lingual Medical Vision-Language Pre-Training by Diminishing Bias Zhongwei Wan Che Liu Mi Zhang Jie Fu Benyou Wang Sibo Cheng Lei Ma César Quilodrán-Casas Rossella Arcucci 42 70 0 31 May 2023
Learning without Forgetting for Vision-Language Models Da-Wei Zhou Yuanhan Zhang Jingyi Ning Jingyi Ning De-Chuan Zhan De-Chuan Zhan Ziwei Liu VLM CLL 69 37 0 30 May 2023
LaFTer: Label-Free Tuning of Zero-shot Classifier using Language and Unlabeled Image Collections M. Jehanzeb Mirza Leonid Karlinsky Wei Lin Mateusz Koziñski Horst Possegger Rogerio Feris Horst Bischof VLM 37 30 0 29 May 2023
Three Towers: Flexible Contrastive Learning with Pretrained Image Models Jannik Kossen Mark Collier Basil Mustafa Xiao Wang Xiaohua Zhai Lucas Beyer Andreas Steiner Jesse Berent Rodolphe Jenatton Efi Kokiopoulou VLM 29 11 0 26 May 2023
ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings William Brannon Wonjune Kang S. Fulay Hang Jiang Brandon Roy Dwaipayan Roy Jad Kabbara SSL 6 22 0 23 May 2023
S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist Captions Sangwoo Mo Minkyu Kim Kyungmin Lee Jinwoo Shin VLM CLIP 36 21 0 23 May 2023
Weakly Supervised 3D Open-vocabulary Segmentation Kunhao Liu Fangneng Zhan Jiahui Zhang Muyu Xu Yingchen Yu Abdulmotaleb El Saddik Christian Theobalt Eric P. Xing Shijian Lu 22 66 0 23 May 2023
Not All Semantics are Created Equal: Contrastive Self-supervised Learning with Automatic Temperature Individualization Zimeng Qiu Quanqi Hu Zhuoning Yuan Denny Zhou Lijun Zhang Tianbao Yang 27 17 0 19 May 2023
MALM: Mask Augmentation based Local Matching for Food-Recipe Retrieval Bhanu Prakash Voutharoja Peng Wang Lei Wang Vivienne Guan 14 6 0 18 May 2023
UMDFood: Vision-language models boost food composition compilation P. Ma Yixin Wu Ning Yu Yang Zhang Michael Backes Qin Wang Cheng-I Wei CoGe 14 2 0 18 May 2023
Improved baselines for vision-language pre-training Enrico Fini Pietro Astolfi Adriana Romero Soriano Jakob Verbeek M. Drozdzal SSL CLIP VLM 45 22 0 15 May 2023
ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding Le Xue Ning Yu Shu Zhen Zhang Artemis Panagopoulou Junnan Li ... Jiajun Wu Caiming Xiong Ran Xu Juan Carlos Niebles Silvio Savarese 19 115 0 14 May 2023
An Inverse Scaling Law for CLIP Training Xianhang Li Zeyu Wang Cihang Xie VLM CLIP 35 54 0 11 May 2023
A Cookbook of Self-Supervised Learning Randall Balestriero Mark Ibrahim Vlad Sobal Ari S. Morcos Shashank Shekhar ... Pierre Fernandez Amir Bar Hamed Pirsiavash Yann LeCun Micah Goldblum SyDa FedML SSL 31 272 0 24 Apr 2023
SATIN: A Multi-Task Metadataset for Classifying Satellite Imagery using Vision-Language Models Jonathan Roberts Kai Han Samuel Albanie VLM 27 12 0 23 Apr 2023
Hyperbolic Image-Text Representations Karan Desai Maximilian Nickel Tanmay Rajpurohit Justin Johnson Ramakrishna Vedantam VLM 29 57 0 18 Apr 2023
What does CLIP know about a red circle? Visual prompt engineering for VLMs Aleksandar Shtedritski Christian Rupprecht Andrea Vedaldi VLM MLLM 21 140 0 13 Apr 2023
Learning Transferable Pedestrian Representation from Multimodal Information Supervision Li-Na Bao Longhui Wei Xiaoyu Qiu Wen-gang Zhou Houqiang Li Qi Tian SSL 14 5 0 12 Apr 2023
SATR: Zero-Shot Semantic Segmentation of 3D Shapes Ahmed Abdelreheem Ivan Skorokhodov M. Ovsjanikov Peter Wonka 3DPC 25 38 0 11 Apr 2023
Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval Jae Myung Kim A. Sophia Koepke Cordelia Schmid Zeynep Akata 70 25 0 06 Apr 2023
Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement Xiang-yu Zhu Renrui Zhang Bowei He A-Long Zhou Dong Wang Bingyan Zhao Peng Gao VLM 27 79 0 03 Apr 2023
Vision-Language Models for Vision Tasks: A Survey Jingyi Zhang Jiaxing Huang Sheng Jin Shijian Lu VLM 39 474 0 03 Apr 2023
Self-Supervised Multimodal Learning: A Survey Yongshuo Zong Oisin Mac Aodha Timothy M. Hospedales SSL 19 43 0 31 Mar 2023
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime Rhydian Windsor A. Jamaludin T. Kadir Andrew Zisserman VLM 12 11 0 30 Mar 2023
SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger Yuting Gao Jinfeng Liu Zi-Han Xu Tong Wu W. Liu Jie-jin Yang Keren Li Xingen Sun CLIP VLM 25 42 0 30 Mar 2023
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models Sifan Long Zhen Zhao Junkun Yuan Zichang Tan Jiangjiang Liu Luping Zhou Sheng-sheng Wang Jingdong Wang VLM 23 2 0 30 Mar 2023
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens Yuxiao Chen Jianbo Yuan Yu Tian Shijie Geng Xinyu Li Ding Zhou Dimitris N. Metaxas Hongxia Yang 14 33 0 27 Mar 2023
The effectiveness of MAE pre-pretraining for billion-scale pretraining Mannat Singh Quentin Duval Kalyan Vasudev Alwala Haoqi Fan Vaibhav Aggarwal ... Piotr Dollár Christoph Feichtenhofer Ross B. Girshick Rohit Girdhar Ishan Misra LRM 105 63 0 23 Mar 2023
CoBIT: A Contrastive Bi-directional Image-Text Generation Model Haoxuan You Mandy Guo Zhecan Wang Kai-Wei Chang Jason Baldridge Jiahui Yu DiffM 37 12 0 23 Mar 2023
CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition Deepti Hegde Jeya Maria Jose Valanarasu Vishal M. Patel CLIP 32 65 0 20 Mar 2023
Robust Contrastive Language-Image Pre-training against Data Poisoning and Backdoor Attacks Wenhan Yang Jingdong Gao Baharan Mirzasoleiman VLM 100 17 0 13 Mar 2023
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning Qian Jiang Changyou Chen Han Zhao Liqun Chen Q. Ping S. D. Tran Yi Xu Belinda Zeng Trishul M. Chilimbi 41 38 0 10 Mar 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 212 318 0 08 Mar 2023
CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning Hritik Bansal Nishad Singhi Yu Yang Fan Yin Aditya Grover Kai-Wei Chang AAML 29 41 0 06 Mar 2023
HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention Shijie Geng Jianbo Yuan Yu Tian Yuxiao Chen Yongfeng Zhang CLIP VLM 41 44 0 06 Mar 2023
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners Renrui Zhang Xiangfei Hu Bohao Li Siyuan Huang Hanqiu Deng Hongsheng Li Yu Qiao Peng Gao VLM MLLM 30 170 0 03 Mar 2023
Dropout Reduces Underfitting Zhuang Liu Zhi-Qin John Xu Joseph Jin Zhiqiang Shen Trevor Darrell 32 36 0 02 Mar 2023
The Role of Pre-training Data in Transfer Learning R. Entezari Mitchell Wortsman O. Saukh M. Shariatnia Hanie Sedghi Ludwig Schmidt 38 20 0 27 Feb 2023
Learning Visual Representations via Language-Guided Sampling Mohamed El Banani Karan Desai Justin Johnson SSL VLM 6 28 0 23 Feb 2023
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey Xiao Wang Guangyao Chen Guangwu Qian Pengcheng Gao Xiaoyong Wei Yaowei Wang Yonghong Tian Wen Gao AI4CE VLM 24 199 0 20 Feb 2023
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts Zhihong Chen Shizhe Diao Benyou Wang Guanbin Li Xiang Wan MedIm 17 29 0 17 Feb 2023
Leaving Reality to Imagination: Robust Classification via Generated Datasets Hritik Bansal Aditya Grover OOD 34 86 0 05 Feb 2023
Effective Robustness against Natural Distribution Shifts for Models with Different Training Data Zhouxing Shi Nicholas Carlini Ananth Balashankar Ludwig Schmidt Cho-Jui Hsieh Alex Beutel Yao Qin OOD 21 9 0 02 Feb 2023
CLIPood: Generalizing CLIP to Out-of-Distributions Yang Shu Xingzhuo Guo Jialong Wu Ximei Wang Jianmin Wang Mingsheng Long OODD VLM 41 74 0 02 Feb 2023
ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency Pengzhen Ren Changlin Li Hang Xu Yi Zhu Guangrun Wang Jian-zhuo Liu Xiaojun Chang Xiaodan Liang 26 43 0 31 Jan 2023
Advancing Radiograph Representation Learning with Masked Record Modeling Hong-Yu Zhou Chenyu Lian Lian-cheng Wang Yizhou Yu MedIm 20 55 0 30 Jan 2023
Masked Autoencoding Does Not Help Natural Language Supervision at Scale Floris Weers Vaishaal Shankar Angelos Katharopoulos Yinfei Yang Tom Gunter CLIP 18 4 0 19 Jan 2023