DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

2 December 2021

Wenliang Zhao

Jie Zhou

Papers citing "DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting"

50 / 400 papers shown

Title
CLIP-Driven Fine-grained Text-Image Person Re-identification Shuanglin Yan Neng Dong Liyan Zhang Jinhui Tang 19 87 0 19 Oct 2022
Bridging CLIP and StyleGAN through Latent Alignment for Image Editing Wanfeng Zheng Qiang Li Xiaoyan Guo Pengfei Wan Zhong-ming Wang 63 14 0 10 Oct 2022
Learning to Decompose Visual Features with Latent Textual Prompts Feng Wang Manling Li Xudong Lin Hairong Lv A. Schwing Heng Ji VLM 19 23 0 09 Oct 2022
MaPLe: Multi-modal Prompt Learning Muhammad Uzair Khattak H. Rasheed Muhammad Maaz Salman Khan F. Khan VPVLM VLM 186 528 0 06 Oct 2022
Bayesian Prompt Learning for Image-Language Model Generalization Mohammad Mahdi Derakhshani Enrique Sanchez Adrian Bulat Victor G. Turrisi da Costa Cees G. M. Snoek Georgios Tzimiropoulos Brais Martínez VPVLM VLM 90 34 0 05 Oct 2022
PLOT: Prompt Learning with Optimal Transport for Vision-Language Models Guangyi Chen Weiran Yao Xiangchen Song Xinyue Li Yongming Rao Kun Zhang VPVLM VLM 6 62 0 03 Oct 2022
Medical Image Understanding with Pretrained Vision Language Models: A Comprehensive Study Ziyuan Qin Huahui Yi Qicheng Lao Kang Li VLM 24 65 0 30 Sep 2022
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention Ziyu Guo Renrui Zhang Longtian Qiu Xianzheng Ma Xupeng Miao Xuming He Bin Cui VLM AAML 55 109 0 28 Sep 2022
GAMA: Generative Adversarial Multi-Object Scene Attacks Abhishek Aich Calvin-Khang Ta Akash Gupta Chengyu Song S. Krishnamurthy M. Salman Asif A. Roy-Chowdhury AAML 36 17 0 20 Sep 2022
Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving Xiwen Liang Yangxin Wu Jianhua Han Hang Xu Chunjing Xu Xiaodan Liang 22 31 0 19 Sep 2022
Exploring Visual Interpretability for Contrastive Language-Image Pre-training Yi Li Hualiang Wang Yiqun Duan Han Xu Xiaomeng Li CLIP VLM 98 25 0 15 Sep 2022
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment Hongwei Xue Yuchong Sun Bei Liu Jianlong Fu Rui Song Houqiang Li Jiebo Luo CLIP VLM 20 68 0 14 Sep 2022
What does a platypus look like? Generating customized prompts for zero-shot image classification Sarah M Pratt Ian Covert Rosanne Liu Ali Farhadi VLM 119 212 0 07 Sep 2022
Reconstructing Action-Conditioned Human-Object Interactions Using Commonsense Knowledge Priors Xi Wang Gengyan Li Yen-Ling Kuo Muhammed Kocabas Emre Aksan Otmar Hilliges 41 28 0 06 Sep 2022
Prompt Tuning with Soft Context Sharing for Vision-Language Models Kun Ding Ying Wang Pengzhang Liu Qiang Yu Hao Zhang Shiming Xiang Chunhong Pan VPVLM VLM 19 14 0 29 Aug 2022
Open-Vocabulary Universal Image Segmentation with MaskCLIP Zheng Ding Jieke Wang Z. Tu CLIP ISeg VLM 35 85 0 18 Aug 2022
Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model Yinghui Xing Qirui Wu De-Chun Cheng Shizhou Zhang Guoqiang Liang Peng Wang Yanning Zhang VLM VPVLM 52 50 0 17 Aug 2022
Expanding Language-Image Pretrained Models for General Video Recognition Bolin Ni Houwen Peng Minghao Chen Songyang Zhang Gaofeng Meng Jianlong Fu Shiming Xiang Haibin Ling VLM CLIP ViT 18 312 0 04 Aug 2022
Prompt Tuning for Generative Multimodal Pretrained Models Han Yang Junyang Lin An Yang Peng Wang Chang Zhou Hongxia Yang VLM LRM VPVLM 35 30 0 04 Aug 2022
Exploring CLIP for Assessing the Look and Feel of Images Jianyi Wang Kelvin C. K. Chan Chen Change Loy VLM 17 523 0 25 Jul 2022
Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models Huy Ha Shuran Song LM&Ro VLM 28 101 0 23 Jul 2022
Exploiting Unlabeled Data with Vision and Language Models for Object Detection Shiyu Zhao Zhixing Zhang S. Schulter Long Zhao Vijay Kumar B.G Anastasis Stathopoulos Manmohan Chandraker Dimitris N. Metaxas VLM ObjD 13 100 0 18 Jul 2022
Zero-Shot Temporal Action Detection via Vision-Language Prompting Sauradip Nag Xiatian Zhu Yi-Zhe Song Tao Xiang VLM 20 65 0 17 Jul 2022
IDEA: Increasing Text Diversity via Online Multi-Label Recognition for Vision-Language Pre-training Xinyu Huang Youcai Zhang Ying Cheng Weiwei Tian Ruiwei Zhao Rui Feng Yuejie Zhang Yaqian Li Yandong Guo X. Zhang VLM 13 14 0 12 Jul 2022
Can Language Understand Depth? Renrui Zhang Ziyao Zeng Ziyu Guo Yafeng Li VLM MDE 13 71 0 03 Jul 2022
CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal Pose Xu Zhang Wen Wang Zhe Chen Yufei Xu Jing Zhang Dacheng Tao CLIP VLM 14 25 0 23 Jun 2022
ProtoCLIP: Prototypical Contrastive Language Image Pretraining Delong Chen Zhao Wu Fan Liu Zaiquan Yang Huaxi Huang Ying Tan Erjin Zhou VLM CLIP 19 28 0 22 Jun 2022
ReCo: Retrieve and Co-segment for Zero-shot Transfer Gyungin Shin Weidi Xie Samuel Albanie VLM 25 89 0 14 Jun 2022
Referring Image Matting Jizhizi Li Jing Zhang Dacheng Tao ObjD VLM 16 22 0 10 Jun 2022
Spatial Entropy as an Inductive Bias for Vision Transformers E. Peruzzo E. Sangineto Yahui Liu Marco De Nadai Wei Bi Bruno Lepri N. Sebe ViT MDE 26 1 0 09 Jun 2022
Decomposing NeRF for Editing via Feature Field Distillation Sosuke Kobayashi Eiichi Matsumoto Vincent Sitzmann 167 327 0 31 May 2022
Prompt-aligned Gradient for Prompt Tuning Beier Zhu Yulei Niu Yucheng Han Yuehua Wu Hanwang Zhang VLM 175 269 0 30 May 2022
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models Yuan Yao Qi-An Chen Ao Zhang Wei Ji Zhiyuan Liu Tat-Seng Chua Maosong Sun VLM MLLM 21 38 0 23 May 2022
Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt Jiangmeng Li Wenyi Mo Wenwen Qiang Bing-Huang Su Changwen Zheng Hui Xiong Ji-Rong Wen VLM 13 0 0 23 May 2022
Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing Benedikt Boecking Naoto Usuyama Shruthi Bannur Daniel Coelho De Castro Anton Schwaighofer ... Tristan Naumann A. Nori Javier Alvarez-Valle Hoifung Poon Ozan Oktay 17 230 0 21 Apr 2022
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting G. Han Long Chen Jiawei Ma Shiyuan Huang Ramalingam Chellappa Shih-Fu Chang VLM 19 20 0 16 Apr 2022
Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional Video Bin Li Yixuan Weng Bin Sun Shutao Li 20 24 0 13 Mar 2022
Conditional Prompt Learning for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VLM CLIP VPVLM 25 1,276 0 10 Mar 2022
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 133 306 0 04 Dec 2021
Extract Free Dense Labels from CLIP Chong Zhou Chen Change Loy Bo Dai VLM CLIP 8 452 0 02 Dec 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,412 0 11 Nov 2021
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 184 384 0 06 Nov 2021
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 194 220 0 24 Sep 2021
ActionCLIP: A New Paradigm for Video Action Recognition Mengmeng Wang Jiazheng Xing Yong Liu VLM 149 360 0 17 Sep 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 322 2,249 0 02 Sep 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 292 5,761 0 29 Apr 2021
ImageNet-21K Pretraining for the Masses T. Ridnik Emanuel Ben-Baruch Asaf Noy Lihi Zelnik-Manor SSeg VLM CLIP 166 684 0 22 Apr 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,604 0 24 Feb 2021
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 238 3,359 0 09 Mar 2020
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 249 1,821 0 18 Aug 2016