Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

7 July 2022

H. Rasheed

Muhammad Maaz

Muhammad Uzair Khattak

Salman Khan

Papers citing "Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection"

26 / 26 papers shown

Title
Enhancing Target-unspecific Tasks through a Features Matrix Fangming Cui Yonggang Zhang Xuan Wang Xinmei Tian Jun Yu AAML 33 0 0 06 May 2025
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding Jinlong Li Cristiano Saltori Fabio Poiesi N. Sebe 79 0 0 20 Mar 2025
Enhancing Novel Object Detection via Cooperative Foundational Models Rohit K Bharadwaj Muzammal Naseer Salman Khan F. Khan ObjD VLM 103 1 0 17 Jan 2025
From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects Zizhao Li Zhengkang Xiang Joseph West Kourosh Khoshelham ObjD VLM 91 1 0 27 Nov 2024
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos Shehan Munasinghe Hanan Gani Wenqi Zhu Jiale Cao Eric P. Xing F. Khan Salman Khan MLLM VGen VLM 42 6 0 07 Nov 2024
Advancing Prompt Learning through an External Layer Fangming Cui Xun Yang Chao Wu Liang Xiao Xinmei Tian VLM 29 1 0 29 Jul 2024
Training-Free Semantic Segmentation via LLM-Supervision Wenfang Sun Yingjun Du Gaowen Liu Ramana Rao Kompella Cees G. M. Snoek VLM 35 2 0 31 Mar 2024
GOOD: Towards Domain Generalized Orientated Object Detection Qi Bi Beichen Zhou Jingjun Yi Wei Ji Haolan Zhan Gui-Song Xia ObjD OOD 74 2 0 20 Feb 2024
PG-Video-LLaVA: Pixel Grounding Large Video-Language Models Shehan Munasinghe Rusiru Thushara Muhammad Maaz H. Rasheed Salman Khan Mubarak Shah Fahad Khan VLM MLLM 17 34 0 22 Nov 2023
FLIP: Cross-domain Face Anti-spoofing with Language Guidance K. Srivatsan Muzammal Naseer Karthik Nandakumar CVBM 42 43 0 28 Sep 2023
Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features Hila Levi Guy Heller Dan Levi Ethan Fetaya OCL VLM 14 3 0 26 Sep 2023
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation Jiahao Xie Wei Li Xiangtai Li Ziwei Liu Yew-Soon Ong Chen Change Loy DiffM VLM 57 35 0 22 Sep 2023
Extending CLIP's Image-Text Alignment to Referring Image Segmentation Seoyeon Kim Minguk Kang Dongwon Kim Jaesik Park Suha Kwak VLM 12 10 0 14 Jun 2023
Mobile User Interface Element Detection Via Adaptively Prompt Tuning Zhangxuan Gu Zhuoer Xu Haoxing Chen Jun Lan Changhua Meng Weiqiang Wang 9 4 0 16 May 2023
V3Det: Vast Vocabulary Visual Detection Dataset Jiaqi Wang Pan Zhang Tao Chu Yuhang Cao Yujie Zhou Tong Wu Bin Wang Conghui He Dahua Lin VLM ObjD 15 51 0 07 Apr 2023
RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding Jihan Yang Runyu Ding Weipeng Deng Zhe Wang Xiaojuan Qi 10 61 0 03 Apr 2023
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks Weicheng Kuo A. Piergiovanni Dahun Kim Xiyang Luo Benjamin Caine ... Luowei Zhou Andrew M. Dai Zhifeng Chen Claire Cui A. Angelova MLLM VLM 17 23 0 29 Mar 2023
Prompt-Guided Transformers for End-to-End Open-Vocabulary Object Detection Hwanjun Song Jihwan Bang VLM ObjD 13 14 0 25 Mar 2023
OvarNet: Towards Open-vocabulary Object Attribute Recognition Keyan Chen Xiaolong Jiang Yao Hu Xu Tang Yan Gao Jianqi Chen Weidi Xie VLM ObjD 27 38 0 23 Jan 2023
Fine-tuned CLIP Models are Efficient Video Learners H. Rasheed Muhammad Uzair Khattak Muhammad Maaz Salman Khan F. Khan CLIP VLM 17 148 0 06 Dec 2022
Open-vocabulary Attribute Detection M. A. Bravo Sudhanshu Mittal Simon Ging Thomas Brox VLM ObjD 14 30 0 23 Nov 2022
CLIP model is an Efficient Continual Learner Vishal G. Thengane Salman Khan Munawar Hayat F. Khan BDL VLM CLL 97 43 0 06 Oct 2022
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Tsung-Yi Lin Weicheng Kuo Yin Cui VLM ObjD 223 897 0 28 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Yin Cui A. Srinivas Rui Qian Tsung-Yi Lin E. D. Cubuk Quoc V. Le Barret Zoph ISeg 223 962 0 13 Dec 2020
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 279 39,083 0 01 Sep 2014