CLIP-Adapter: Better Vision-Language Models with Feature Adapters

9 October 2021

Yu Qiao

Papers citing "CLIP-Adapter: Better Vision-Language Models with Feature Adapters"

50 / 637 papers shown

Title
LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival Yuanxin Zhao Mi Zhang Bingnan Yang Zhan Zhang Jiaju Kang Jianya Gong 19 2 0 16 Mar 2024
Model Reprogramming Outperforms Fine-tuning on Out-of-distribution Data in Text-Image Encoders Andrew Geng Pin-Yu Chen OODD 19 0 0 16 Mar 2024
Frozen Feature Augmentation for Few-Shot Image Classification Andreas Bär N. Houlsby Mostafa Dehghani Manoj Kumar VLM 18 4 0 15 Mar 2024
GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery Enguang Wang Zhimao Peng Zhengyuan Xie Fei Yang Xialei Liu Ming-Ming Cheng 54 3 0 15 Mar 2024
OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning Lingyi Hong Shilin Yan Renrui Zhang Wanyun Li Xinyu Zhou ... Kaixun Jiang Yiting Chen Jinglun Li Zhaoyu Chen Wenqiang Zhang VLM 32 35 0 14 Mar 2024
CLIP-BEVFormer: Enhancing Multi-View Image-Based BEV Detector with Ground Truth Flow Chenbin Pan Burhaneddin Yaman Senem Velipasalar Liu Ren 44 10 0 13 Mar 2024
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation Zicheng Zhang Tong Zhang Yi Zhu Jian-zhuo Liu Xiaodan Liang QiXiang Ye Wei Ke VLM 44 2 0 13 Mar 2024
Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification Long Lan Fengxiang Wang Shuyan Li Xiangtao Zheng Zengmao Wang Xinwang Liu VLM 24 7 0 13 Mar 2024
TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection Hanning Chen Wenjun Huang Yang Ni Sanggeon Yun Fei Wen Hugo Latapie Mohsen Imani ObjD MLLM VLM 35 16 0 12 Mar 2024
Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation Xinyao Li Yuke Li Zhekai Du Fengling Li Ke Lu Jingjing Li VLM 39 4 0 11 Mar 2024
When No-Reference Image Quality Models Meet MAP Estimation in Diffusion Latents Weixia Zhang Dingquan Li Guangtao Zhai Xiaokang Yang Kede Ma 25 1 0 11 Mar 2024
RESTORE: Towards Feature Shift for Vision-Language Prompt Learning Yuncheng Yang Chuyan Zhang Zuopeng Yang Yuting Gao Yulei Qin Ke Li Xing Sun Jie-jin Yang Yun Gu VLM VPVLM 44 0 0 10 Mar 2024
Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning Yi Zhang Ce Zhang VLM 28 1 0 10 Mar 2024
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition Yusheng Dai Hang Chen Jun Du Ruoyu Wang Shihao Chen Jie Ma Haotian Wang Chin-Hui Lee 38 4 0 07 Mar 2024
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models Zheng Li Xiang Li Xinyi Fu Xing Zhang Weiqiang Wang Shuo Chen Jian Yang VLM 27 33 0 05 Mar 2024
Few-shot Learner Parameterization by Diffusion Time-steps Zhongqi Yue Pan Zhou Richang Hong Hanwang Zhang Qianru Sun 23 11 0 05 Mar 2024
Enhancing Vision-Language Pre-training with Rich Supervisions Yuan Gao Kunyu Shi Pengkai Zhu Edouard Belval Oren Nuriel Srikar Appalaraju Shabnam Ghadar Vijay Mahadevan Zhuowen Tu Stefano Soatto VLM CLIP 62 12 0 05 Mar 2024
Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning Shuo Yang Zirui Shang Yongqi Wang Derong Deng Hongwei Chen Qiyuan Cheng Xinxiao Wu VLM 31 5 0 02 Mar 2024
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World Weiyun Wang Yiming Ren Hao Luo Tiantong Li Chenxiang Yan ... Qingyun Li Lewei Lu Xizhou Zhu Yu Qiao Jifeng Dai MLLM 36 46 0 29 Feb 2024
Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model Hao-Ran Cheng Erjia Xiao Jindong Gu Le Yang Jinhao Duan Jize Zhang Jiahang Cao Kaidi Xu Renjing Xu 29 6 0 29 Feb 2024
Percept, Chat, and then Adapt: Multimodal Knowledge Transfer of Foundation Models for Open-World Video Recognition Boyu Chen Siran Chen Kunchang Li Qinglin Xu Yu Qiao Yali Wang 30 3 0 29 Feb 2024
TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding Zhihao Zhang Shengcao Cao Yu-Xiong Wang 30 16 0 28 Feb 2024
Training Neural Networks from Scratch with Parallel Low-Rank Adapters Minyoung Huh Brian Cheung Jeremy Bernstein Phillip Isola Pulkit Agrawal 25 10 0 26 Feb 2024
Grasp, See, and Place: Efficient Unknown Object Rearrangement with Policy Structure Prior Kechun Xu Zhongxiang Zhou Jun Wu Haojian Lu Rong Xiong Yue Wang 33 2 0 23 Feb 2024
CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection Sohail Ahmed Khan Duc-Tien Dang-Nguyen VLM 22 17 0 20 Feb 2024
ISCUTE: Instance Segmentation of Cables Using Text Embedding Shir Kozlovsky O. Joglekar Dotan Di Castro 21 2 0 19 Feb 2024
Any-Shift Prompting for Generalization over Distributions Zehao Xiao Jiayi Shen Mohammad Mahdi Derakhshani Shengcai Liao Cees G. M. Snoek OOD VPVLM VLM 32 8 0 15 Feb 2024
Quantified Task Misalignment to Inform PEFT: An Exploration of Domain Generalization and Catastrophic Forgetting in CLIP Laura Niss Kevin Vogt-Lowell Theodoros Tsiligkaridis CLL 20 1 0 14 Feb 2024
A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation Zhengbo Wang Jian Liang Lijun Sheng Ran He Zilei Wang Tieniu Tan VLM 14 21 0 06 Feb 2024
CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model Aoran Xiao Weihao Xuan Heli Qi Yun Xing Ruijie Ren Xiaoqin Zhang Ling Shao Shijian Lu VLM MLLM 35 10 0 06 Feb 2024
CLIP Can Understand Depth Dunam Kim Seokju Lee VLM MDE 36 2 0 05 Feb 2024
Cross-modality debiasing: using language to mitigate sub-population shifts in imaging Yijiang Pang Hoang Bao Jiayu Zhou 9 0 0 02 Feb 2024
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors Shiyin Dong Mingrui Zhu Kun Cheng Nannan Wang Xinbo Gao DiffM 6 3 0 29 Jan 2024
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling Xiaoyu Shi Zhaoyang Huang Fu-Yun Wang Weikang Bian Dasong Li ... Ka Chun Cheung Simon See Hongwei Qin Jifeng Da Hongsheng Li VGen DiffM 33 78 0 29 Jan 2024
Data-Free Generalized Zero-Shot Learning Bowen Tang Long Yan Jing Zhang Qian Yu Lu Sheng Dong Xu VLM 21 10 0 28 Jan 2024
SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning Hao Chen Jiaze Wang Ziyu Guo Jinpeng Li Donghao Zhou Bian Wu Chenyong Guan Guangyong Chen Pheng-Ann Heng 25 5 0 22 Jan 2024
ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition Jiaming Zhou Junwei Liang Kun-Yu Lin Jinrui Yang Wei-Shi Zheng VLM 16 8 0 22 Jan 2024
Hierarchical Prompts for Rehearsal-free Continual Learning Yukun Zuo Hantao Yao Lu Yu Liansheng Zhuang Changsheng Xu CLL VLM 17 1 0 21 Jan 2024
Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities Xu Yan Haiming Zhang Yingjie Cai Jingming Guo Weichao Qiu ... Lihui Jiang Wei Zhang Hongbo Zhang Dengxin Dai Bingbing Liu 51 16 0 16 Jan 2024
Towards A Better Metric for Text-to-Video Generation Jay Zhangjie Wu Guian Fang Haoning Wu Xintao Wang Yixiao Ge ... Rui Zhao Weisi Lin Wynne Hsu Ying Shan Mike Zheng Shou VGen 22 34 0 15 Jan 2024
FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos S. DarshanSingh Zeeshan Khan Makarand Tapaswi VLM CLIP 21 3 0 15 Jan 2024
Concept-Guided Prompt Learning for Generalization in Vision-Language Models Yi Zhang Ce Zhang Ke Yu Yushun Tang Zhihai He VLM MLLM 32 20 0 15 Jan 2024
APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning Guiming Cao Kaize Shi Hong Fu Huaiwen Zhang Guandong Xu VLM 20 1 0 12 Jan 2024
CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification Xiaoyan Yu Neng Dong Liehuang Zhu Hao Peng Dapeng Tao 19 6 0 11 Jan 2024
Low-Resource Vision Challenges for Foundation Models Yunhua Zhang Hazel Doughty Cees G. M. Snoek VLM 22 5 0 09 Jan 2024
Learning to Prompt Segment Anything Models Jiaxing Huang Kai Jiang Jingyi Zhang Han Qiu Lewei Lu Shijian Lu Eric P. Xing VLM LRM 32 7 0 09 Jan 2024
VLLaVO: Mitigating Visual Gap through LLMs Shuhao Chen Yulong Zhang Weisen Jiang Jiangang Lu Yu Zhang VLM 32 2 0 06 Jan 2024
Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively Haobo Yuan Xiangtai Li Chong Zhou Yining Li Kai Chen Chen Change Loy VLM 18 51 0 05 Jan 2024
Learning to Prompt with Text Only Supervision for Vision-Language Models Muhammad Uzair Khattak Muhammad Ferjad Naeem Muzammal Naseer Luc Van Gool F. Tombari VLM VPVLM 28 18 0 04 Jan 2024
Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions Oindrila Saha Grant Van Horn Subhransu Maji VLM 32 20 0 04 Jan 2024