Class-agnostic Object Detection with Multi-modal Transformer

Class-agnostic Object Detection with Multi-modal Transformer

22 November 2021

Salman Khan

Rao Muhammad Anwer

Papers citing "Class-agnostic Object Detection with Multi-modal Transformer"

16 / 16 papers shown

Title
Enhancing Target-unspecific Tasks through a Features Matrix Fangming Cui Yonggang Zhang Xuan Wang Xinmei Tian Jun Yu AAML 38 0 0 06 May 2025
From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects Zizhao Li Zhengkang Xiang Joseph West Kourosh Khoshelham ObjD VLM 94 1 0 27 Nov 2024
Open World Object Detection: A Survey Yiming Li Yi Wang Wenqian Wang Dan Lin Bingbing Li Kim-Hui Yap ObjD 30 0 0 15 Oct 2024
Advancing Prompt Learning through an External Layer Fangming Cui Xun Yang Chao Wu Liang Xiao Xinmei Tian VLM 34 1 0 29 Jul 2024
DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection Jia Syuen Lim Zhuoxiao Chen Mahsa Baktashmotlagh Zhi Chen Xin Yu Zi Huang Yadan Luo VLM ObjD 78 1 0 21 Jun 2024
Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights Moein Heidari Reza Azad Sina Ghorbani Kolahi René Arimond Leon Niggemeier ... Afshin Bozorgpour Ehsan Khodapanah Aghdam A. Kazerouni I. Hacihaliloglu Dorit Merhof 41 7 0 28 Mar 2024
GenKL: An Iterative Framework for Resolving Label Ambiguity and Label Non-conformity in Web Images Via a New Generalized KL Divergence Xia Huang Kai Fong Ernest Chong 37 2 0 19 Jul 2023
Multi-modal Queried Object Detection in the Wild Yifan Xu Mengdan Zhang Chaoyou Fu Peixian Chen Xiaoshan Yang Ke Li Changsheng Xu ObjD VLM 26 29 0 30 May 2023
SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications Abdelrahman M. Shaker Muhammad Maaz H. Rasheed Salman Khan Ming Yang F. Khan ViT 35 83 0 27 Mar 2023
Detecting the open-world objects with the help of the Brain Shuailei Ma Yuefeng Wang Ying-yu Wei Peihao Chen Zhixiang Ye Jiaqi Fan Enming Zhang Thomas H. Li VLM ObjD 16 2 0 21 Mar 2023
Fine-tuned CLIP Models are Efficient Video Learners H. Rasheed Muhammad Uzair Khattak Muhammad Maaz Salman Khan F. Khan CLIP VLM 17 148 0 06 Dec 2022
MaPLe: Multi-modal Prompt Learning Muhammad Uzair Khattak H. Rasheed Muhammad Maaz Salman Khan F. Khan VPVLM VLM 186 528 0 06 Oct 2022
Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization Peixian Chen Kekai Sheng Mengdan Zhang Mingbao Lin Yunhang Shen Shaohui Lin Bo Ren Ke Li VLM ObjD 34 27 0 22 Jun 2022
Localizing Objects with Self-Supervised Transformers and no Labels Oriane Siméoni Gilles Puy Huy V. Vo Simon Roburin Spyros Gidaris Andrei Bursuc P. Pérez Renaud Marlet Jean Ponce ViT 170 195 0 29 Sep 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 298 5,761 0 29 Apr 2021
Frustratingly Simple Few-Shot Object Detection Xin Wang Thomas E. Huang Trevor Darrell Joseph E. Gonzalez F. I. F. Richard Yu ObjD 75 541 0 16 Mar 2020