Title
PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild Henghui Ding Chang Liu Nikhila Ravi Shuting He Y. Wei ... Haobo Yuan X. Li Tao Zhang Lu Qi Ming Yang 21 0 0 15 Apr 2025
Fine-Grained Open-Vocabulary Object Detection with Fined-Grained Prompts: Task, Dataset and Benchmark Ying Liu Yijing Hua Haojiang Chai Yanbo Wang TengQi Ye ObjD 47 0 0 19 Mar 2025
Point-Cache: Test-time Dynamic and Hierarchical Cache for Robust and Generalizable Point Cloud Analysis Hongyu Sun Qiuhong Ke Ming Cheng Y. Wang Deying Li Chenhui Gou Jianfei Cai 3DPC 84 0 0 15 Mar 2025
Geometric Machine Learning on EEG Signals Benjamin J. Choi 40 1 0 07 Feb 2025
Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning Zhifang Zhang Shuo He Bingquan Shen Lei Feng Lei Feng AAML 34 0 0 29 Dec 2024
From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects Zizhao Li Zhengkang Xiang Joseph West Kourosh Khoshelham ObjD VLM 80 1 0 27 Nov 2024
Interpreting Object-level Foundation Models via Visual Precision Search Ruoyu Chen Siyuan Liang Jingzhi Li Shiming Liu Maosen Li Zheng Huang Hua Zhang Xiaochun Cao FAtt 74 3 0 25 Nov 2024
Open World Object Detection: A Survey Yiming Li Yi Wang Wenqian Wang Dan Lin Bingbing Li Kim-Hui Yap ObjD 20 0 0 15 Oct 2024
OrionNav: Online Planning for Robot Autonomy with Context-Aware LLM and Open-Vocabulary Semantic Scene Graphs Venkata Naren Devarakonda Raktim Gautam Goswami Ali Umut Kaypak Naman Patel Rooholla Khorrambakht P. Krishnamurthy Farshad Khorrami LM&Ro 27 3 0 08 Oct 2024
Hybrid Primal Sketch: Combining Analogy, Qualitative Representations, and Computer Vision for Scene Understanding Kenneth D. Forbus Kezhen Chen Wangcheng Xu Madeline Usher 20 0 0 05 Jul 2024
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts Yunxin Li Shenyuan Jiang Baotian Hu Longyue Wang Wanqi Zhong Wenhan Luo Lin Ma Min-Ling Zhang MoE 17 27 0 18 May 2024
Explore In-Context Segmentation via Latent Diffusion Models Chaoyang Wang Xiangtai Li Henghui Ding Lu Qi Jiangning Zhang Yunhai Tong Chen Change Loy Shuicheng Yan DiffM 45 6 0 14 Mar 2024
OMG-Seg: Is One Model Good Enough For All Segmentation? Xiangtai Li Haobo Yuan Wei Li Henghui Ding Size Wu Wenwei Zhang Yining Li Kai Chen Chen Change Loy VLM MLLM ViT 64 48 0 18 Jan 2024
An Open and Comprehensive Pipeline for Unified Object Grounding and Detection Xiangyu Zhao Yicheng Chen Shilin Xu Xiangtai Li Xinjiang Wang Yining Li Haian Huang ObjD AI4CE 30 27 0 04 Jan 2024
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation Tuan-Anh Vu Duc Thanh Nguyen Qing-Wu Guo Binh-Son Hua N. Chung Ivor W. Tsang Sai-Kit Yeung DiffM 10 1 0 29 Dec 2023
ProxyDet: Synthesizing Proxy Novel Classes via Classwise Mixup for Open-Vocabulary Object Detection Joonhyun Jeong Geondo Park Jayeon Yoo Hyungsik Jung Heesu Kim VLM ObjD 16 10 0 12 Dec 2023
OpenSD: Unified Open-Vocabulary Segmentation and Detection Shuai Li Ming-hui Li Pengfei Wang Lei Zhang ObjD VLM 19 6 0 10 Dec 2023
Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding Jin-Chuan Shi Miao Wang Hao-Bin Duan Shao-Hua Guan 3DGS 14 83 0 30 Nov 2023
Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion Hao Zhou Tiancheng Shen Xu Yang Hai Huang Xiangtai Li Lu Qi Ming-Hsuan Yang 70 10 0 06 Nov 2023
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation Jiahao Xie Wei Li Xiangtai Li Ziwei Liu Yew-Soon Ong Chen Change Loy DiffM VLM 47 35 0 22 Sep 2023
Detect Everything with Few Examples Xinyu Zhang Yuting Wang Abdeslam Boularias ObjD VLM 11 13 0 22 Sep 2023
Object2Scene: Putting Objects in Context for Open-Vocabulary 3D Detection Chenming Zhu Wenwei Zhang Tai Wang Xihui Liu Kai-xiang Chen 3DPC 34 18 0 18 Sep 2023
Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation Shuting He Henghui Ding Wei Jiang VLM 61 34 0 19 Jun 2023
Three ways to improve feature alignment for open vocabulary detection Relja Arandjelović A. Andonian A. Mensch Olivier J. Hénaff Jean-Baptiste Alayrac Andrew Zisserman VLM ObjD 28 19 0 23 Mar 2023
MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge Wei Lin Leonid Karlinsky Nina Shvetsova Horst Possegger Mateusz Koziñski Rameswar Panda Rogerio Feris Hilde Kuehne Horst Bischof VLM 97 38 0 15 Mar 2023
Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection Luting Wang Yi Liu Penghui Du Zihan Ding Yue Liao Qiaosong Qi Biaolong Chen Si Liu ObjD VLM 66 61 0 10 Mar 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 198 318 0 08 Mar 2023
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation Yue Han Jiangning Zhang Zhucun Xue Chao Xu Xintian Shen Yabiao Wang Chengjie Wang Yong Liu Xiangtai Li 27 16 0 03 Jan 2023
Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation Jianzong Wu Xiangtai Li Henghui Ding Xia Li Guangliang Cheng Yu Tong Chen Change Loy VLM 68 24 0 02 Jan 2023
Self-Regularized Prototypical Network for Few-Shot Semantic Segmentation Henghui Ding Hui Zhang Xudong Jiang 54 59 0 30 Oct 2022
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu Zhun Sun Wanli Ouyang VLM 87 93 0 04 Jul 2022
iFS-RCNN: An Incremental Few-shot Instance Segmenter Khoi Duc Minh Nguyen S. Todorovic ISeg CLL 40 23 0 31 May 2022
Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation Zongyang Ma Guan Luo Jin Gao Liang Li Yuxin Chen Shaoru Wang Congxuan Zhang Weiming Hu VLM ObjD 72 81 0 20 Mar 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz X. Wang ViT VLM 173 494 0 22 Feb 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 380 4,010 0 28 Jan 2022
PointCLIP: Point Cloud Understanding by CLIP Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li VLM 3DPC 158 428 0 04 Dec 2021
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 117 308 0 04 Dec 2021
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 170 281 0 06 Nov 2021
Generalized Out-of-Distribution Detection: A Survey Jingkang Yang Kaiyang Zhou Yixuan Li Ziwei Liu 159 812 0 21 Oct 2021
Survey: Transformer based Video-Language Pre-training Ludan Ruan Qin Jin VLM ViT 59 44 0 21 Sep 2021
ActionCLIP: A New Paradigm for Video Action Recognition Mengmeng Wang Jiazheng Xing Yong Liu VLM 141 261 0 17 Sep 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 319 2,108 0 02 Sep 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Tsung-Yi Lin Weicheng Kuo Yin Cui VLM ObjD 206 698 0 28 Apr 2021
Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection Chenchen Zhu Fangyi Chen Uzair Ahmed Zhiqiang Shen Marios Savvides ObjD 59 154 0 02 Mar 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Yin Cui A. Srinivas Rui Qian Tsung-Yi Lin E. D. Cubuk Quoc V. Le Barret Zoph ISeg 217 835 0 13 Dec 2020
Balanced Meta-Softmax for Long-Tailed Visual Recognition Jiawei Ren Cunjun Yu Shunan Sheng Xiao Ma Haiyu Zhao Shuai Yi Hongsheng Li 149 541 0 21 Jul 2020
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 149 282 0 19 Mar 2020
Frustratingly Simple Few-Shot Object Detection Xin Wang Thomas E. Huang Trevor Darrell Joseph E. Gonzalez F. I. F. Richard Yu ObjD 75 535 0 16 Mar 2020
Conditional Convolutions for Instance Segmentation Zhi Tian Chunhua Shen Hao Chen ISeg 162 596 0 12 Mar 2020