V3Det: Vast Vocabulary Visual Detection Dataset

7 April 2023

Conghui He

Papers citing "V3Det: Vast Vocabulary Visual Detection Dataset"

50 / 50 papers shown

Title
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding Tao Zhang X. Li Zilong Huang Y. Li Weixian Lei XueQing Deng Shihao Chen S. Ji Jiashi Feng MLLM LRM 54 1 0 14 Apr 2025
Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation Yongchao Feng Yajie Liu Shuai Yang Wenrui Cai J. Zhang ... Jiahui Lv Z. Liu Tengyuan Shi Qingjie Liu Y. Wang MLLM VLM 55 1 0 13 Apr 2025
CQ-DINO: Mitigating Gradient Dilution via Category Queries for Vast Vocabulary Object Detection Zhichao Sun Huazhang Hu Yidong Ma Gang Liu Nemo Chen Xu Tang Yao Hu Yongchao Xu ObjD 44 0 0 24 Mar 2025
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook Xu Zheng Ziqiao Weng Yuanhuiyi Lyu Lutao Jiang Haiwei Xue Bin Ren Danda Pani Paudel N. Sebe Luc Van Gool Xuming Hu 3DV 37 1 0 23 Mar 2025
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning Yufei Zhan Yousong Zhu Shurong Zheng Hongyin Zhao Fan Yang Ming Tang J. T. Wang VLM 67 3 0 23 Mar 2025
OmniSTVG: Toward Spatio-Temporal Omni-Object Video Grounding Jiali Yao Xinran Deng Xin Gu Mengrui Dai Bing Fan Zhipeng Zhang Yan Huang Heng Fan L. Zhang 56 0 0 13 Mar 2025
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks Miran Heo Min-Hung Chen De-An Huang Sifei Liu Subhashree Radhakrishnan Seon Joo Kim Yu-Chun Wang Ryo Hachiuma ObjD VLM 121 2 0 14 Jan 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 91 45 0 03 Jan 2025
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding Chenxin Tao Shiqian Su X. Zhu Chenyu Zhang Zhe Chen ... Wenhai Wang Lewei Lu Gao Huang Yu Qiao Jifeng Dai MLLM VLM 102 1 0 20 Dec 2024
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions Pan Zhang Xiaoyi Dong Yuhang Cao Yuhang Zang Rui Qian ... X. Zhang K. Chen Yu Qiao D. Lin Jiaqi Wang KELM 84 12 0 12 Dec 2024
Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models Yufei Zhan Hongyin Zhao Yousong Zhu Fan Yang Ming Tang Jinqiao Wang MLLM 43 1 0 21 Oct 2024
Fractal Calibration for long-tailed object detection Konstantinos Panagiotis Alexandridis Ismail Elezi Jiankang Deng Anh H. Nguyen Shan Luo 46 0 0 15 Oct 2024
OVGNet: A Unified Visual-Linguistic Framework for Open-Vocabulary Robotic Grasping Meng Li Qi Zhao Shuchang Lyu Chunlei Wang Yujing Ma Guangliang Cheng Chenguang Yang 22 4 0 18 Jul 2024
Adaptive Parametric Activation Konstantinos Panagiotis Alexandridis Jiankang Deng Anh Nguyen Shan Luo 28 2 0 11 Jul 2024
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language Yicheng Chen Xiangtai Li Yining Li Yanhong Zeng Jianzong Wu Xiangyu Zhao Kai Chen VLM DiffM 56 3 0 28 Jun 2024
V3Det Challenge 2024 on Vast Vocabulary and Open Vocabulary Object Detection: Methods and Results Jiaqi Wang Yuhang Zang Pan Zhang Tao Chu Yuhang Cao ... Kehong Yuan Yanyan Zu Jiayao Ha Qiong Gao Licheng Jiao ObjD 39 1 0 17 Jun 2024
Enhanced Object Detection: A Study on Vast Vocabulary Object Detection Track for V3Det Challenge 2024 Peixi Wu Bosong Chai Xuan Nie Longquan Yan Zeyu Wang Qifan Zhou Boning Wang Yansong Peng Hebei Li ObjD 26 1 0 13 Jun 2024
SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model An-Chieh Cheng Hongxu Yin Yang Fu Qiushan Guo Ruihan Yang Jan Kautz Xiaolong Wang Sifei Liu LRM 46 43 0 03 Jun 2024
ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing Ying Jin Pengyang Ling Xiao-wen Dong Pan Zhang Jiaqi Wang Dahua Lin 24 2 0 18 May 2024
Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection Tianhe Ren Qing Jiang Shilong Liu Zhaoyang Zeng Wenlong Liu ... Hao Zhang Feng Li Peijun Tang Kent Yu Lei Zhang ObjD VLM 29 32 0 16 May 2024
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models Chuofan Ma Yi-Xin Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi VLM ObjD 37 49 0 19 Apr 2024
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu VLM ObjD 34 19 0 14 Apr 2024
Retrieval-Augmented Open-Vocabulary Object Detection Jooyeon Kim Eulrang Cho Sehyung Kim Hyunwoo J. Kim VLM ObjD 30 8 0 08 Apr 2024
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want Weifeng Lin Xinyu Wei Ruichuan An Peng Gao Bocheng Zou Yulin Luo Siyuan Huang Shanghang Zhang Hongsheng Li VLM 58 32 0 29 Mar 2024
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring Yufei Zhan Yousong Zhu Hongyin Zhao Fan Yang Ming Tang Jinqiao Wang ObjD 31 12 0 14 Mar 2024
VastTrack: Vast Category Visual Object Tracking Liang Peng Junyuan Gao Xinran Liu Weihong Li Shaohua Dong Zhipeng Zhang Heng Fan Libo Zhang VLM 38 7 0 06 Mar 2024
RegionGPT: Towards Region Understanding Vision Language Model Qiushan Guo Shalini De Mello Hongxu Yin Wonmin Byeon Ka Chun Cheung Yizhou Yu Ping Luo Sifei Liu VLM 36 35 0 04 Mar 2024
DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large Language Models Yuhang Cao Pan Zhang Xiao-wen Dong Dahua Lin Jiaqi Wang 32 10 0 22 Feb 2024
Subobject-level Image Tokenization Delong Chen Samuel Cahyawijaya Jianfeng Liu Baoyuan Wang Pascale Fung VLM OCL 46 6 0 22 Feb 2024
Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks Tianhe Ren Shilong Liu Ailing Zeng Jing Lin Kunchang Li ... Feng Li Jie-jin Yang Hongyang Li Qing Jiang Lei Zhang VLM 35 358 0 25 Jan 2024
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding Bowen Shi Peisen Zhao Zichen Wang Yuhang Zhang Yaoming Wang ... Wenrui Dai Junni Zou Hongkai Xiong Qi Tian Xiaopeng Zhang VLM 33 6 0 12 Jan 2024
Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively Haobo Yuan Xiangtai Li Chong Zhou Yining Li Kai Chen Chen Change Loy VLM 18 51 0 05 Jan 2024
Segment and Caption Anything Xiaoke Huang Jianfeng Wang Yansong Tang Zheng Zhang Han Hu Jiwen Lu Lijuan Wang Zicheng Liu MLLM VLM 21 17 0 01 Dec 2023
Towards Open-Ended Visual Recognition with Large Language Model Qihang Yu Xiaohui Shen Liang-Chieh Chen VLM 22 8 0 14 Nov 2023
GLaMM: Pixel Grounding Large Multimodal Model H. Rasheed Muhammad Maaz Sahal Shaji Mullappilly Abdelrahman M. Shaker Salman Khan Hisham Cholakkal Rao M. Anwer Erix Xing Ming-Hsuan Yang Fahad S. Khan MLLM VLM 36 194 0 06 Nov 2023
Recognize Any Regions Haosen Yang Chuofan Ma Bin Wen Yi-Xin Jiang Zehuan Yuan Xiatian Zhu ObjD VLM 38 3 0 02 Nov 2023
DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection Shilin Xu Xiangtai Li Size Wu Wenwei Zhang Yunhai Tong Chen Change Loy ObjD VLM 16 14 0 02 Oct 2023
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation Jiahao Xie Wei Li Xiangtai Li Ziwei Liu Yew-Soon Ong Chen Change Loy DiffM VLM 60 35 0 22 Sep 2023
How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection Yi Yao Peng Liu Tiancheng Zhao Qianqian Zhang Jiajia Liao Chunxin Fang Kyusong Lee Qing Wang VLM ObjD 14 12 0 25 Aug 2023
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World Weiyun Wang Min Shi Qingyun Li Wen Wang Zhenhang Huang ... Zhiguo Cao Yushi Chen Tong Lu Jifeng Dai Yu Qiao LRM MLLM 33 83 0 03 Aug 2023
Described Object Detection: Liberating Object Detection with Flexible Expressions Chi Xie Zhao Zhang YiXuan Wu Feng Zhu Rui Zhao Shuang Liang ObjD 32 30 0 24 Jul 2023
Towards Open Vocabulary Learning: A Survey Jianzong Wu Xiangtai Li Shilin Xu Haobo Yuan Henghui Ding ... Jiangning Zhang Yu Tong Xudong Jiang Bernard Ghanem Dacheng Tao ObjD VLM 27 134 0 28 Jun 2023
Contextual Object Detection with Multimodal Large Language Models Yuhang Zang Wei Li Jun Han Kaiyang Zhou Chen Change Loy ObjD VLM MLLM 16 77 0 29 May 2023
A Comprehensive Survey on Segment Anything Model for Vision and Beyond Chunhui Zhang Li Liu Yawen Cui Guanjie Huang Weilin Lin Yiqian Yang Yuehong Hu VLM 32 89 0 14 May 2023
Segment Anything in Non-Euclidean Domains: Challenges and Opportunities Yongcheng Jing Xinchao Wang Dacheng Tao 25 21 0 23 Apr 2023
Dense Distinct Query for End-to-End Object Detection Shilong Zhang Wang xinjiang Jiaqi Wang Jiangmiao Pang Chengqi Lyu Wenwei Zhang Ping Luo Kai-xiang Chen 64 111 0 22 Mar 2023
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Tsung-Yi Lin Weicheng Kuo Yin Cui VLM ObjD 223 897 0 28 Apr 2021
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Yin Cui A. Srinivas Rui Qian Tsung-Yi Lin E. D. Cubuk Quoc V. Le Barret Zoph ISeg 223 962 0 13 Dec 2020
Conditional Convolutions for Instance Segmentation Zhi Tian Chunhua Shen Hao Chen ISeg 167 596 0 12 Mar 2020
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 279 39,083 0 01 Sep 2014