Learning to Decompose Visual Features with Latent Textual Prompts

9 October 2022

Heng Ji

Papers citing "Learning to Decompose Visual Features with Latent Textual Prompts"

27 / 27 papers shown

Title
ResCLIP: Residual Attention for Training-free Dense Vision-language Inference Yuhang Yang Jinhong Deng Wen Li Lixin Duan VLM 71 0 0 24 Nov 2024
UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models Jiachen Liang Ruibing Hou Minyang Hu Hong Chang Shiguang Shan Xilin Chen VLM 36 1 0 11 Nov 2024
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation Yuhan Zhu Yuyang Ji Zhiyu Zhao Gangshan Wu Limin Wang VLM 39 7 0 05 Jul 2024
GalLoP: Learning Global and Local Prompts for Vision-Language Models Marc Lafon Elias Ramzi Clément Rambour Nicolas Audebert Nicolas Thome VLM 29 7 0 01 Jul 2024
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models Jinhao Li Haopeng Li S. Erfani Lei Feng James Bailey Feng Liu VLM 27 3 0 05 Jun 2024
Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions S. A. Baumann Felix Krause Michael Neumayr Nick Stracke Vincent Tao Hu Bjorn Ommer Björn Ommer DiffM LM&Ro 66 11 0 25 Mar 2024
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models Zheng Li Xiang Li Xinyi Fu Xing Zhang Weiqiang Wang Shuo Chen Jian Yang VLM 24 33 0 05 Mar 2024
Concept-Guided Prompt Learning for Generalization in Vision-Language Models Yi Zhang Ce Zhang Ke Yu Yushun Tang Zhihai He VLM MLLM 32 20 0 15 Jan 2024
Black-Box Tuning of Vision-Language Models with Effective Gradient Approximation Zixian Guo Yuxiang Wei Ming-Yu Liu Zhilong Ji Jinfeng Bai Yiwen Guo Wangmeng Zuo VLM 24 8 0 26 Dec 2023
SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference Feng Wang Jieru Mei Alan L. Yuille VLM 19 54 0 04 Dec 2023
BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP Jiawang Bai Kuofeng Gao Shaobo Min Shu-Tao Xia Zhifeng Li Wei Liu VLM 21 36 0 26 Nov 2023
Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation Xue-mei Hu Ce Zhang Yi Zhang Bowen Hai Ke Yu Zhihai He MDE VLM 17 17 0 02 Nov 2023
Investigating the Limitation of CLIP Models: The Worst-Performing Categories Jiejing Shao Jiang-Xin Shi Xiao-Wen Yang Lan-Zhe Guo Yu-Feng Li VLM 19 10 0 05 Oct 2023
Tuning Multi-mode Token-level Prompt Alignment across Modalities Dongsheng Wang Miaoge Li Xinyang Liu Mingsheng Xu Bo Chen Hanwang Zhang VLM 18 16 0 25 Sep 2023
DePT: Decoupled Prompt Tuning Ji Zhang Shihan Wu Lianli Gao Hengtao Shen Jingkuan Song VLM 19 27 0 14 Sep 2023
BDC-Adapter: Brownian Distance Covariance for Better Vision-Language Reasoning Yi Zhang Ce Zhang Zihan Liao Yushun Tang Zhihai He BDL VLM 16 10 0 03 Sep 2023
Cross-Modal Concept Learning and Inference for Vision-Language Models Yi Zhang Ce Zhang Yushun Tang Z. He VLM MLLM CLIP 15 15 0 28 Jul 2023
Improving Zero-Shot Generalization for CLIP with Synthesized Prompts Z. Wang Jian Liang R. He Nana Xu Zilei Wang Tien-Ping Tan VLM 24 47 0 14 Jul 2023
Prompting classes: Exploring the Power of Prompt Class Learning in Weakly Supervised Semantic Segmentation Balamurali Murugesan Rukhshanda Hussain Rajarshi Bhattacharya Ismail Ben Ayed Jose Dolz VLM VPVLM 18 4 0 30 Jun 2023
Visual Tuning Bruce X. B. Yu Jianlong Chang Haixin Wang Lin Liu Shijie Wang ... Lingxi Xie Haojie Li Zhouchen Lin Qi Tian Chang Wen Chen VLM 39 37 0 10 May 2023
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners Zhenhailong Wang Manling Li Ruochen Xu Luowei Zhou Jie Lei ... Chenguang Zhu Derek Hoiem Shih-Fu Chang Mohit Bansal Heng Ji MLLM VLM 167 134 0 22 May 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 184 384 0 06 Nov 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 322 2,249 0 02 Sep 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 303 771 0 18 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021