CLIP-Adapter: Better Vision-Language Models with Feature Adapters

9 October 2021

Yu Qiao

Papers citing "CLIP-Adapter: Better Vision-Language Models with Feature Adapters"

50 / 635 papers shown

Title
$Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization$ Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ ual- $\mathbf{\texttt{H}}$ ead $\mathbf{\texttt{O}}$ ptimization Seongjae Kang Dong Bok Lee Hyungjoon Jang Sung Ju Hwang VLM 35 0 0 12 May 2025
Biomed-DPT: Dual Modality Prompt Tuning for Biomedical Vision-Language Models Wei Peng Kang Liu Jianchen Hu Meng Zhang VLM LM&MA 40 0 0 08 May 2025
VGLD: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery Bojin Wu Jing Chen MDE 42 0 0 05 May 2025
Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin Yuchen Wang X. Bai X. Li Weili Guan Liqiang Nie Xinyang Chen VLM 37 0 0 04 May 2025
Diff-Prompt: Diffusion-Driven Prompt Generator with Mask Supervision Weicai Yan Wang Lin Zirun Guo Ye Wang Fangming Feng Xiaoda Yang Z. Wang Tao Jin DiffM 97 2 0 30 Apr 2025
FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models Mainak Singha Subhankar Roy Sarthak Mehrotra Ankit Jha Moloud Abdar Biplab Banerjee Elisa Ricci VLM VPVLM 108 0 0 29 Apr 2025
E-InMeMo: Enhanced Prompting for Visual In-Context Learning Jiahao Zhang Bowen Wang Hong Liu Liangzhi Li Yuta Nakashima Hajime Nagahara VLM 99 0 0 25 Apr 2025
FrogDogNet: Fourier frequency Retained visual prompt Output Guidance for Domain Generalization of CLIP in Remote Sensing Hariseetharam Gunduboina Muhammad Haris Khan Biplab Banerjee VLM 34 0 0 23 Apr 2025
LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation Jiachen Li Qing Xie Xiaohan Yu Hongyun Wang Jinyu Xu Yongjian Liu ObjD 71 0 0 20 Apr 2025
CLIP-Powered Domain Generalization and Domain Adaptation: A Comprehensive Survey Jindong Li Y. Li Yali Fu Jiahong Liu Yixin Liu Menglin Yang Irwin King VLM 36 0 0 19 Apr 2025
Logits DeConfusion with CLIP for Few-Shot Learning Shuo Li F. Liu Zehua Hao X. Wang Lingling Li X. Liu Puhua Chen Wenping Ma VLM 47 0 0 16 Apr 2025
LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation Hanning Chen Yang Ni Wenjun Huang Hyunwoo Oh Yezi Liu Tamoghno Das Mohsen Imani VLM LRM 34 0 0 15 Apr 2025
FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation Yasser Benigmim Mohammad Fahes Tuan-Hung Vu Andrei Bursuc Raoul de Charette VLM 32 0 0 14 Apr 2025
UP-Person: Unified Parameter-Efficient Transfer Learning for Text-based Person Retrieval Yating Liu Yaowei Li Xiangyuan Lan Wenming Yang Zimo Liu Q. Liao 24 0 0 14 Apr 2025
FATE: A Prompt-Tuning-Based Semi-Supervised Learning Framework for Extremely Limited Labeled Data Hezhao Liu Yang Lu Mengke Li Yiqun Zhang Shreyank N Gowda Chen Gong Hanzi Wang 29 0 0 14 Apr 2025
RGB-Event based Pedestrian Attribute Recognition: A Benchmark Dataset and An Asymmetric RWKV Fusion Framework X. Wang Haiyang Wang Shiao Wang Qiang Chen Jiandong Jin Haoyu Song Bo Jiang Chenglong Li 31 0 0 14 Apr 2025
Bayesian Cross-Modal Alignment Learning for Few-Shot Out-of-Distribution Generalization Lin Zhu Yifeng Yang Zichao Nie Yuan Gao VLM 28 0 0 13 Apr 2025
Intrinsic Saliency Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation Xiangyu Zheng Wanyun Li Songcheng He Xiaoqiang Li We Zhang VOS 25 0 0 08 Apr 2025
Think When You Need: Self-Adaptive Chain-of-Thought Learning Junjie Yang Ke Lin Xing Yu ReLM LRM AI4CE 37 1 0 04 Apr 2025
CLIP-SLA: Parameter-Efficient CLIP Adaptation for Continuous Sign Language Recognition Sarah Alyami H. Luqman SLR VLM 67 0 0 02 Apr 2025
Unleashing the Power of Pre-trained Encoders for Universal Adversarial Attack Detection Yinghe Zhang Chi Liu S. Kevin Zhou Sheng Shen Peng Gui AAML 51 0 0 01 Apr 2025
fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models Saurav Sharma Didier Mutter N. Padoy VLM MedIm 37 0 0 25 Mar 2025
VTD-CLIP: Video-to-Text Discretization via Prompting CLIP Wencheng Zhu Yuexin Wang Hongxuan Li Pengfei Zhu Q. Hu CLIP 48 0 0 24 Mar 2025
SPMTrack: Spatio-Temporal Parameter-Efficient Fine-Tuning with Mixture of Experts for Scalable Visual Tracking Wenrui Cai Qingjie Liu Y. Wang MoE 57 0 0 24 Mar 2025
OCRT: Boosting Foundation Models in the Open World with Object-Concept-Relation Triad Luyao Tang Yuxuan Yuan C. L. P. Chen Zeyu Zhang Yue Huang Kun Zhang 48 0 0 24 Mar 2025
Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models Haotian Zhai Xinyu Chen Can Zhang Tianming Sha Ruirui Li BDL VLM 59 0 0 24 Mar 2025
Compositional Caching for Training-free Open-vocabulary Attribute Detection Marco Garosi Alessandro Conti Gaowen Liu Elisa Ricci Massimiliano Mancini ObjD VLM 50 0 0 24 Mar 2025
Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models Davide Berasi Matteo Farina Massimiliano Mancini Elisa Ricci Nicola Strisciuglio CoGe 66 0 0 21 Mar 2025
UniCrossAdapter: Multimodal Adaptation of CLIP for Radiology Report Generation Yaxiong Chen Chuang Du Chunlei Li Jingliang Hu Yilei Shi Shengwu Xiong Xiao Xiang Zhu Lichao Mou MedIm 50 0 0 20 Mar 2025
Enhancing Zero-Shot Image Recognition in Vision-Language Models through Human-like Concept Guidance Hui Liu Wenya Wang Kecheng Chen Jie Liu Yibing Liu Tiexin Qin Peisong He Xinghao Jiang Haoliang Li BDL VLM 78 0 0 20 Mar 2025
Text-Derived Relational Graph-Enhanced Network for Skeleton-Based Action Segmentation Haoyu Ji Bowen Chen Weihong Ren Wenze Huang Zhihao Yang Zhiyong Wang Honghai Liu 41 0 0 19 Mar 2025
DCA: Dividing and Conquering Amnesia in Incremental Object Detection Aoting Zhang Dongbao Yang Chang-Shu Liu Xiaopeng Hong Miao Shang Yu Zhou CLL 57 0 0 19 Mar 2025
Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification Zhong Ji Ci Liu Jingren Liu Chen Tang Yanwei Pang X. Li OT 49 0 0 19 Mar 2025
Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport Hao Tan Zichang Tan Jun Yu Li A. Liu Jun Wan Zhen Lei VLM 49 0 0 19 Mar 2025
LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation Yang Zhou Shiyu Zhao Y. Chen Z. Wang Dimitris N. Metaxas ObjD 56 0 0 18 Mar 2025
DPC: Dual-Prompt Collaboration for Tuning Vision-Language Models Haoyang Li Liang Wang Chao Wang Jing Jiang Yan Peng Guodong Long VLM 64 1 0 17 Mar 2025
TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification Ans Munir Faisal Z. Qureshi M. H. Khan Mohsen Ali VLM 67 0 0 15 Mar 2025
Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control Hejia Chen Haoxian Zhang Shoulong Zhang Xiaoqiang Liu Sisi Zhuang Yuan Zhang Pengfei Wan Di Zhang Shuai Li 54 1 0 14 Mar 2025
DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning Chengxuan Qian Shuo Xing Shawn Li Yue Zhao Zhengzhong Tu 50 0 0 14 Mar 2025
Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages Matteo Farina Massimiliano Mancini Giovanni Iacca Elisa Ricci VLM 53 0 0 14 Mar 2025
ProAPO: Progressively Automatic Prompt Optimization for Visual Classification Xiangyan Qu Gaopeng Gou Jiamin Zhuang Jing Yu Kun Song Qihao Wang Yili Li Gang Xiong VLM 75 0 0 13 Mar 2025
Modeling Variants of Prompts for Vision-Language Models Ao Li Zongfang Liu Xinhua Li Jinghui Zhang Pengwei Wang Hu Wang VLM 45 0 0 13 Mar 2025
Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness B. Zhu Jiequan Cui H. Zhang Chi Zhang 67 0 0 12 Mar 2025
Bidirectional Prototype-Reward co-Evolution for Test-Time Adaptation of Vision-Language Models Xiaozhen Qiao Peng Huang Jiakang Yuan Xianda Guo Bowen Ye Zhe Sun Xuelong Li 60 0 0 12 Mar 2025
Bayesian Test-Time Adaptation for Vision-Language Models Lihua Zhou Mao Ye Shuaifeng Li Nianxin Li Xiatian Zhu Lei Deng Hongbin Liu Zhen Lei BDL VLM TTA 96 0 0 12 Mar 2025
Embodied Crowd Counting Runling Long Yunlong Wang Jia Wan Xiang Deng Xinting Zhu Weili Guan Antoni B. Chan Liqiang Nie 58 0 0 11 Mar 2025
MMRL: Multi-Modal Representation Learning for Vision-Language Models Yuncheng Guo Xiaodong Gu VLM OffRL 55 0 0 11 Mar 2025
Federated Multimodal Learning with Dual Adapters and Selective Pruning for Communication and Computational Efficiency Duy Phuong Nguyen J. P. Muñoz Tanya Roosta Ali Jannesari FedML 59 0 0 10 Mar 2025
XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition Chuanming Wang Henming Mao Huanhuan Zhang Huiyuan Fu Huadong Ma VLM 42 0 0 10 Mar 2025
M $^3$ amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification Mingxiang Cao Weiying Xie Xin Zhang Jiaqing Zhang Kai Jiang Jie Lei Yunsong Li Mamba 44 0 0 09 Mar 2025