Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection

2 November 2022

Jianhua Han

Xiaodan Liang

Papers citing "Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection"

24 / 24 papers shown

Title
Visual Position Prompt for MLLM based Visual Grounding Wei Tang Yanpeng Sun Qinying Gu Zechao Li VLM 45 0 0 19 Mar 2025
LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation Yang Zhou Shiyu Zhao Y. Chen Z. Wang Dimitris N. Metaxas ObjD 56 0 0 18 Mar 2025
Proactive Schemes: A Survey of Adversarial Attacks for Social Good Vishal Asnani Xi Yin Xiaoming Liu AAML 32 1 0 24 Sep 2024
Dual-Domain CLIP-Assisted Residual Optimization Perception Model for Metal Artifact Reduction Xinrui Zhang Ailong Cai Shaoyu Wang Linyuan Wang Zhizhong Zheng Lei Li Bin Yan MedIm 19 0 0 14 Aug 2024
Contextual Emotion Recognition using Large Vision Language Models Yasaman Etesam Özge Nilay Yalçin Chuxuan Zhang Angelica Lim VLM 69 3 0 14 May 2024
Prompt Learning for Oriented Power Transmission Tower Detection in High-Resolution SAR Images Tianyang Li Chao Wang Hong Zhang 16 0 0 01 Apr 2024
CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation Wenqi Zhu Jiale Cao Jin Xie Shuangming Yang Yanwei Pang VLM CLIP 37 2 0 19 Mar 2024
Emotional Theory of Mind: Bridging Fast Visual Processing with Slow Linguistic Reasoning Yasaman Etesam Özge Nilay Yalçin Chuxuan Zhang Angelica Lim 27 2 0 30 Oct 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 24 32 0 18 Jul 2023
Vision-Language Models for Vision Tasks: A Survey Jingyi Zhang Jiaxing Huang Sheng Jin Shijian Lu VLM 39 474 0 03 Apr 2023
Efficient Feature Distillation for Zero-shot Annotation Object Detection Zhuoming Liu Xuefeng Hu Ram Nevatia VLM ObjD 11 1 0 21 Mar 2023
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 194 220 0 24 Sep 2021
ActionCLIP: A New Paradigm for Video Action Recognition Mengmeng Wang Jiazheng Xing Yong Liu VLM 149 362 0 17 Sep 2021
Semantics-Guided Contrastive Network for Zero-Shot Object detection Caixia Yan Xiao Chang Minnan Luo Huan Liu Xiaoqin Zhang Qinghua Zheng ObjD VLM 59 74 0 04 Sep 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 322 2,249 0 02 Sep 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Tsung-Yi Lin Weicheng Kuo Yin Cui VLM ObjD 223 897 0 28 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,764 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 1,077 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 525 0 04 Feb 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 241 1,913 0 31 Dec 2020
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Yin Cui A. Srinivas Rui Qian Tsung-Yi Lin E. D. Cubuk Quoc V. Le Barret Zoph ISeg 223 962 0 13 Dec 2020
Synthesizing the Unseen for Zero-shot Object Detection Nasir Hayat Munawar Hayat Shafin Rahman Salman Khan Syed Waqas Zamir F. Khan VLM ObjD 171 57 0 19 Oct 2020
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 406 2,576 0 03 Sep 2019