CLIP-Adapter: Better Vision-Language Models with Feature Adapters

9 October 2021

Yu Qiao

Papers citing "CLIP-Adapter: Better Vision-Language Models with Feature Adapters"

50 / 635 papers shown

Title
Principled and Efficient Transfer Learning of Deep Models via Neural Collapse Xiao Li Sheng Liu Jin-li Zhou Xin Lu C. Fernandez‐Granda Zhihui Zhu Q. Qu AAML 16 18 0 23 Dec 2022
Localized Latent Updates for Fine-Tuning Vision-Language Models Moritz Ibing I. Lim Leif Kobbelt VLM 13 1 0 13 Dec 2022
Cap2Aug: Caption guided Image to Image data Augmentation Aniket Roy Anshul B. Shah Ketul Shah Anirban Roy Rama Chellappa DiffM 15 0 0 11 Dec 2022
Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition Xin Ni Yong Liu Hao Wen Yatai Ji Jing Xiao Yujiu Yang 17 9 0 09 Dec 2022
Multi-Concept Customization of Text-to-Image Diffusion Nupur Kumari Bin Zhang Richard Y. Zhang Eli Shechtman Jun-Yan Zhu 8 818 0 08 Dec 2022
Improving Zero-Shot Models with Label Distribution Priors Jonathan Kahana Niv Cohen Yedid Hoshen VLM 4 14 0 01 Dec 2022
Finetune like you pretrain: Improved finetuning of zero-shot vision models Sachin Goyal Ananya Kumar Sankalp Garg Zico Kolter Aditi Raghunathan CLIP VLM 16 136 0 01 Dec 2022
Exploiting Category Names for Few-Shot Classification with Vision-Language Models Taihong Xiao Zirui Wang Liangliang Cao Jiahui Yu Shengyang Dai Ming Yang VLM MLLM 17 5 0 29 Nov 2022
SuS-X: Training-Free Name-Only Transfer of Vision-Language Models Vishaal Udandarao Ankush Gupta Samuel Albanie VLM MLLM 22 103 0 28 Nov 2022
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification Fang Peng Xiaoshan Yang Linhui Xiao Yaowei Wang Changsheng Xu VLM 14 41 0 28 Nov 2022
Multi-Modal Few-Shot Temporal Action Detection Sauradip Nag Mengmeng Xu Xiatian Zhu Juan-Manuel Perez-Rua Bernard Ghanem Yi-Zhe Song Tao Xiang VLM 20 6 0 27 Nov 2022
CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels Siyuan Li Li Sun Qingli Li VLM 17 148 0 25 Nov 2022
Texts as Images in Prompt Tuning for Multi-Label Image Recognition Zixian Guo Bowen Dong Zhilong Ji Jinfeng Bai Yiwen Guo W. Zuo VLM VPVLM 23 55 0 23 Nov 2022
PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning Xiangyang Zhu Renrui Zhang Bowei He Ziyu Guo Ziyao Zeng Zipeng Qin Shanghang Zhang Peng Gao VLM 22 133 0 21 Nov 2022
Language in a Bottle: Language Model Guided Concept Bottlenecks for Interpretable Image Classification Yue Yang Artemis Panagopoulou Shenghao Zhou Daniel Jin Chris Callison-Burch Mark Yatskar 10 210 0 21 Nov 2022
Decomposed Soft Prompt Guided Fusion Enhancing for Compositional Zero-Shot Learning Xiaocheng Lu Ziming Liu Song Guo Jingcai Guo CoGe 8 29 0 19 Nov 2022
Task Residual for Tuning Vision-Language Models Tao Yu Zhihe Lu Xin Jin Zhibo Chen Xinchao Wang VLM CLIP 11 77 0 18 Nov 2022
FedTune: A Deep Dive into Efficient Federated Fine-Tuning with Pre-trained Transformers Jinyu Chen Wenchao Xu Song Guo Junxiao Wang Jie M. Zhang Haozhao Wang FedML 13 30 0 15 Nov 2022
Visual Named Entity Linking: A New Dataset and A Baseline Wenxiang Sun Yixing Fan J. Guo Ruqing Zhang Xueqi Cheng 8 14 0 09 Nov 2022
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection Yanxin Long Jianhua Han Runhu Huang Xu Hang Yi Zhu Chunjing Xu Xiaodan Liang VLM ObjD 8 18 0 02 Nov 2022
FairCLIP: Social Bias Elimination based on Attribute Prototype Learning and Representation Neutralization Junyan Wang Yi Zhang Jitao Sang FaML VLM 26 22 0 26 Oct 2022
Prompting through Prototype: A Prototype-based Prompt Learning on Pretrained Vision-Language Models Yue Zhang Hongliang Fei Dingcheng Li Tan Yu Ping Li VPVLM VLM 10 8 0 19 Oct 2022
Meta-Learning via Classifier(-free) Diffusion Guidance Elvis Nava Seijin Kobayashi Yifei Yin Robert K. Katzschmann Benjamin Grewe VLM 17 6 0 17 Oct 2022
Is synthetic data from generative models ready for image recognition? Ruifei He Shuyang Sun Xin Yu Chuhui Xue Wenqing Zhang Philip H. S. Torr Song Bai Xiaojuan Qi 16 284 0 14 Oct 2022
Prototypical VoteNet for Few-Shot 3D Point Cloud Object Detection Shizhen Zhao Xiaojuan Qi 3DPC 37 17 0 11 Oct 2022
Bridging CLIP and StyleGAN through Latent Alignment for Image Editing Wanfeng Zheng Qiang Li Xiaoyan Guo Pengfei Wan Zhong-ming Wang 57 14 0 10 Oct 2022
Learning to Decompose Visual Features with Latent Textual Prompts Feng Wang Manling Li Xudong Lin Hairong Lv A. Schwing Heng Ji VLM 11 23 0 09 Oct 2022
SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained Models Omiros Pantazis Gabriel J. Brostow Kate E. Jones Oisin Mac Aodha VLM 20 39 0 07 Oct 2022
MaPLe: Multi-modal Prompt Learning Muhammad Uzair Khattak H. Rasheed Muhammad Maaz Salman Khan F. Khan VPVLM VLM 186 521 0 06 Oct 2022
PLOT: Prompt Learning with Optimal Transport for Vision-Language Models Guangyi Chen Weiran Yao Xiangchen Song Xinyue Li Yongming Rao Kun Zhang VPVLM VLM 6 62 0 03 Oct 2022
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention Ziyu Guo Renrui Zhang Longtian Qiu Xianzheng Ma Xupeng Miao Xuming He Bin Cui VLM AAML 55 108 0 28 Sep 2022
Revisiting Few-Shot Learning from a Causal Perspective Guoliang Lin Yongheng Xu Hanjiang Lai Jian Yin CML 11 3 0 28 Sep 2022
Collaboration of Pre-trained Models Makes Better Few-shot Learner Renrui Zhang Bohao Li Wei Zhang Hao Dong Hongsheng Li Peng Gao Yu Qiao VLM 46 7 0 25 Sep 2022
CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding Zhijian Hou Wanjun Zhong Lei Ji Difei Gao Kun Yan W. Chan Chong-Wah Ngo Zheng Shou Nan Duan AI4TS 27 23 0 22 Sep 2022
Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving Xiwen Liang Yangxin Wu Jianhua Han Hang Xu Chunjing Xu Xiaodan Liang 14 30 0 19 Sep 2022
Exploring Visual Interpretability for Contrastive Language-Image Pre-training Yi Li Hualiang Wang Yiqun Duan Han Xu Xiaomeng Li CLIP VLM 95 25 0 15 Sep 2022
Prompt Tuning with Soft Context Sharing for Vision-Language Models Kun Ding Ying Wang Pengzhang Liu Qiang Yu Hao Zhang Shiming Xiang Chunhong Pan VPVLM VLM 17 14 0 29 Aug 2022
Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model Yinghui Xing Qirui Wu De-Chun Cheng Shizhou Zhang Guoqiang Liang Peng Wang Yanning Zhang VLM VPVLM 44 50 0 17 Aug 2022
Patching open-vocabulary models by interpolating weights Gabriel Ilharco Mitchell Wortsman S. Gadre Shuran Song Hannaneh Hajishirzi Simon Kornblith Ali Farhadi Ludwig Schmidt VLM KELM 14 166 0 10 Aug 2022
Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP Thao Nguyen Gabriel Ilharco Mitchell Wortsman Sewoong Oh Ludwig Schmidt CLIP VLM 25 97 0 10 Aug 2022
Frozen CLIP Models are Efficient Video Learners Ziyi Lin Shijie Geng Renrui Zhang Peng Gao Gerard de Melo Xiaogang Wang Jifeng Dai Yu Qiao Hongsheng Li CLIP VLM 10 199 0 06 Aug 2022
Expanding Language-Image Pretrained Models for General Video Recognition Bolin Ni Houwen Peng Minghao Chen Songyang Zhang Gaofeng Meng Jianlong Fu Shiming Xiang Haibin Ling VLM CLIP ViT 18 312 0 04 Aug 2022
Prompt Tuning for Generative Multimodal Pretrained Models Han Yang Junyang Lin An Yang Peng Wang Chang Zhou Hongxia Yang VLM LRM VPVLM 27 30 0 04 Aug 2022
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal Yuval Alaluf Y. Atzmon Or Patashnik Amit H. Bermano Gal Chechik Daniel Cohen-Or 29 1,744 0 02 Aug 2022
Prompting for Multi-Modal Tracking Jinyu Yang Zhe Li Fengcai Zheng A. Leonardis Jingkuan Song 17 84 0 29 Jul 2022
Pro-tuning: Unified Prompt Tuning for Vision Tasks Xing Nie Bolin Ni Jianlong Chang Gaomeng Meng Chunlei Huo Zhaoxiang Zhang Shiming Xiang Qi Tian Chunhong Pan AAML VPVLM VLM 11 69 0 28 Jul 2022
Visual Recognition by Request Chufeng Tang Lingxi Xie Xiaopeng Zhang Xiaolin Hu Qi Tian VLM 11 15 0 28 Jul 2022
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification Renrui Zhang Zhang Wei Rongyao Fang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 12 281 0 19 Jul 2022
Zero-Shot Temporal Action Detection via Vision-Language Prompting Sauradip Nag Xiatian Zhu Yi-Zhe Song Tao Xiang VLM 18 65 0 17 Jul 2022
Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models Rui Qian Yeqing Li Zheng Xu Ming Yang Serge J. Belongie Yin Cui VLM 25 22 0 15 Jul 2022