Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model

Computer Vision and Pattern Recognition (CVPR), 2022

28 March 2022

ArXiv (abs)PDF HTML Github (181★)

Papers citing "Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model"

50 / 278 papers shown

Title
A Hierarchical Semantic Distillation Framework for Open-Vocabulary Object Detection Shenghao Fu Junkai Yan Q. Yang Xihan Wei Xiaohua Xie Wei-Shi Zheng ObjD VLM 211 3 0 13 Mar 2025
OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with TransformerInternational Conference on Learning Representations (ICLR), 2025 Jinyang Li En Yu Sijia Chen Wenbing Tao 383 6 0 13 Mar 2025
Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology ImagesIEEE journal of biomedical and health informatics (JBHI), 2025 M. Rahaman Ewan K. A. Millar Erik H. W. Meijering VLM 297 2 0 13 Mar 2025
Debiased Prompt Tuning in Vision-Language Model without Annotations Chaoquan Jiang Yunfan Yang Rui Hu Jitao Sang VLM 222 0 0 11 Mar 2025
XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition Chuanming Wang Henming Mao Huanhuan Zhang Huiyuan Fu Huadong Ma VLM 213 0 0 10 Mar 2025
Grad-ECLIP: Gradient-based Visual and Textual Explanations for CLIP Chenyang Zhao Kun Wang J. H. Hsiao Antoni B. Chan CLIP 247 6 0 26 Feb 2025
MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering Caixiong Li Xiongwei Zhao Jinhang Zhang Xing Zhang Qihao Sun Zhou Wu ObjD MLLM VLM 237 0 0 23 Feb 2025
Prompt as Knowledge Bank: Boost Vision-language model via Structural Representation for zero-shot medical detectionInternational Conference on Learning Representations (ICLR), 2025 Yuguang Yang Tongfei Chen Haoyu Huang Linlin Yang Chunyu Xie Dawei Leng Xianbin Cao Baochang Zhang MedIm 187 0 0 22 Feb 2025
Prompt-Driven Continual Graph Learning Qi Wang Tianfei Zhou Ye Yuan Rui Mao CLL 356 0 0 10 Feb 2025
YOLO-UniOW: Efficient Universal Open-World Object Detection Lihao Liu Juexiao Feng Hui Chen Ao Wang Lin Song Jiawei Han Guiguang Ding ObjD VLM 272 5 0 31 Dec 2024
CATALOG: A Camera Trap Language-guided Contrastive Learning ModelIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Julian D. Santamaria Claudia Isaza Jhony H. Giraldo 204 1 0 14 Dec 2024
Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2024 Haicheng Wang Chen Ju Weixiong Lin Shuai Xiao Mengting Chen ... Mingshuai Yao Jinsong Lan Ying Chen Qingwen Liu Yanfeng Wang VLM CLIP 342 8 0 30 Nov 2024
From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects Zizhao Li Zhengkang Xiang Joseph West Kourosh Khoshelham ObjD VLM 401 3 0 27 Nov 2024
Active Prompt Learning with Vision-Language Model Priors Hoyoung Kim Seokhee Jin Changhwan Sung Jaechang Kim Jungseul Ok VLM 137 1 0 23 Nov 2024
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements M. Arda Aydın Efe Mert Çırpar Elvin Abdinli Gözde B. Ünal Y. Sahin VLM 573 3 0 18 Nov 2024
Exploiting VLM Localizability and Semantics for Open Vocabulary Action DetectionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Wentao Bao Keqin Li Yuxiao Chen Deep Patel Martin Renqiang Min Yu Kong VLM ObjD 264 7 0 17 Nov 2024
Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination Haojie Zheng Tianyang Xu Hanchi Sun Shu Pu Ruoxi Chen Lichao Sun MLLM LRM 217 26 0 15 Nov 2024
Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation Yan Li Weiwei Guo Songyuan Li Ning Liao Shaofeng Zhang Yi Yu Wenxian Yu Junchi Yan ObjD 219 1 0 04 Nov 2024
ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D ImagesNeural Information Processing Systems (NeurIPS), 2024 Timing Yang Yuanliang Ju Li Yi 3DPC 280 14 0 31 Oct 2024
Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation ModelsNeural Information Processing Systems (NeurIPS), 2024 Shenghao Fu Junkai Yan Q. Yang Xihan Wei Xiaohua Xie Wei-Shi Zheng VLM 245 12 0 25 Oct 2024
OVT-B: A New Large-Scale Benchmark for Open-Vocabulary Multi-Object TrackingNeural Information Processing Systems (NeurIPS), 2024 Haiji Liang Ruize Han VLM 337 4 0 23 Oct 2024
Boosting Open-Vocabulary Object Detection by Handling Background Samples Ruizhe Zeng Lu Zhang Xu Yang Zhiyong Liu VLM ObjD 164 1 0 11 Oct 2024
SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary DetectionACM Multimedia (MM), 2024 Zishuo Wang Wenhao Zhou Jinglin Xu Yuxin Peng ObjD VLM 180 7 0 08 Oct 2024
P4Q: Learning to Prompt for Quantization in Visual-language Models H. Sun Runqi Wang Yanjing Li Xianbin Cao Xiaolong Jiang Feng-Long Xie Baochang Zhang MQ VLM 215 5 0 26 Sep 2024
Attention Prompting on Image for Large Vision-Language ModelsEuropean Conference on Computer Vision (ECCV), 2024 Runpeng Yu Weihao Yu Xinchao Wang VLM 335 27 0 25 Sep 2024
Vision-Language Models Assisted Unsupervised Video Anomaly Detection Yalong Jiang Liquan Mao 281 0 0 21 Sep 2024
SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary TrackingEuropean Conference on Computer Vision (ECCV), 2024 Siyuan Li Lei Ke Yung-Hsu Yang Luigi Piccinelli Mattia Segu Martin Danelljan Luc Van Gool VLM 203 8 0 17 Sep 2024
An Attribute-Enriched Dataset and Auto-Annotated Pipeline for Open DetectionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Pengfei Qi Yifei Zhang Wenqiang Li Youwen Hu Kunlong Bai ObjD 183 0 0 10 Sep 2024
YOLOO: You Only Learn from Others Once Lipeng Gu Mingqiang Wei Xuefeng Yan Dingkun Zhu Wei Zhao H. Xie 3DPC 333 0 0 01 Sep 2024
Nemesis: Normalizing the Soft-prompt Vectors of Vision-Language ModelsInternational Conference on Learning Representations (ICLR), 2024 Shuai Fu Xiequn Wang Qiushi Huang Yu Zhang VLM 163 4 0 26 Aug 2024
ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2024 Jingyun Wang Guoliang Kang VLM SSL 422 12 0 13 Aug 2024
Efficient Test-Time Prompt Tuning for Vision-Language Models Yuhan Zhu Guozhen Zhang Chen Xu Haocheng Shen Xiaoxin Chen Gangshan Wu Limin Wang VLM 245 8 0 11 Aug 2024
Exploring Conditional Multi-Modal Prompts for Zero-shot HOI DetectionEuropean Conference on Computer Vision (ECCV), 2024 Ting Lei Shaofeng Yin Yuxin Peng Yang Liu VLM 289 22 0 05 Aug 2024
Fairness and Bias Mitigation in Computer Vision: A Survey Sepehr Dehdashtian Ruozhen He Yi Li Guha Balakrishnan Nuno Vasconcelos Vicente Ordonez Vishnu Boddeti 337 11 0 05 Aug 2024
MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection Kuo Wang Lechao Cheng Weikai Chen Pingping Zhang Liang Lin Fan Zhou Guanbin Li VLM ObjD 198 8 0 31 Jul 2024
OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking Zekun Qian Ruize Han Wei Feng Junhui Hou Linqi Song Song Wang 261 1 0 19 Jul 2024
EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension Wei Zhang Miaoxin Cai Tong Zhang Jun Li Zhuang Yin Xuerui Mao 326 3 0 18 Jul 2024
Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation Pengfei Wang Yuxi Wang Shuai Li Zhaoxiang Zhang Zhen Lei Lei Zhang 222 10 0 18 Jul 2024
OVGNet: A Unified Visual-Linguistic Framework for Open-Vocabulary Robotic Grasping Meng Li Qi Zhao Shuchang Lyu Chunlei Wang Yujing Ma Guangliang Cheng Chenguang Yang 274 10 0 18 Jul 2024
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation Shijie Chang Youwei Pang Xiaoqi Zhao Lihe Zhang Huchuan Lu 225 4 0 16 Jul 2024
LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction Penghui Du Yu Wang Yifan Sun Luting Wang Yue Liao Qiang Chen Errui Ding Yan Wang Jingdong Wang Si Liu VLM ObjD 229 12 0 16 Jul 2024
OpenPSG: Open-set Panoptic Scene Graph Generation via Large Multimodal Models Zijian Zhou Zheng Zhu Holger Caesar Miaojing Shi VLM 182 11 0 15 Jul 2024
Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion Philipp Allgeuer Kyra Ahrens Stefan Wermter CLIP VLM 244 6 0 15 Jul 2024
Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection Xingyu Peng Yan Bai Chen Gao Lirong Yang Fei Xia Beipeng Mu Xiaofei Wang Si Liu ObjD 207 8 0 12 Jul 2024
Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation Hao Fang Peng Wu Yawei Li Xinxin Zhang Xiankai Lu VLM 271 19 0 10 Jul 2024
Zero-shot Object Counting with Good Exemplars Huilin Zhu Jingling Yuan Zhengwei Yang Yu Guo Zheng Wang Xian Zhong Shengfeng He VLM 199 24 0 06 Jul 2024
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation Yuhan Zhu Yuyang Ji Zhiyu Zhao Gangshan Wu Limin Wang VLM 277 23 0 05 Jul 2024
Enhancing Domain Adaptation through Prompt Gradient Alignment Hoang Phan Lam C. Tran Quyen Tran Trung Le 519 7 0 13 Jun 2024
CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language AlignmentComputer Vision and Pattern Recognition (CVPR), 2024 Sajid Javed Arif Mahmood I. I. Ganapathi Fayaz Ali Dharejo Naoufel Werghi Mohammed Bennamoun VLM LM&MA 189 31 0 07 Jun 2024
OVMR: Open-Vocabulary Recognition with Multi-Modal ReferencesComputer Vision and Pattern Recognition (CVPR), 2024 Zehong Ma Shiliang Zhang Longhui Wei Qi Tian VLM 266 3 0 07 Jun 2024