Title
Discovering Fine-Grained Visual-Concept Relations by Disentangled Optimal Transport Concept Bottleneck Models Yan Xie Zequn Zeng Hao Zhang Yucheng Ding Y. Wang Zhengjue Wang Bo Chen Hongwei Liu OT 26 0 0 12 May 2025
D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition Rupayan Mallick Sibo Dong Nataniel Ruiz Sarah Adel Bargal DiffM 44 0 0 08 Apr 2025
URECA: Unique Region Caption Anything Sangbeom Lim J. Kim Heeji Yoon Jaewoo Jung Seungryong Kim 29 0 0 07 Apr 2025
Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities Jing Liu Wenxuan Wang Yisi Zhang Yepeng Tang Xingjian He Longteng Guo Tongtian Yue Xinlong Wang ObjD 46 0 0 02 Apr 2025
RefCut: Interactive Segmentation with Reference Guidance Zheng Lin Nan Zhou Chen-Xi Du Deng-Ping Fan Shi-Min Hu 49 0 0 22 Mar 2025
MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation Donggon Jang Yucheol Cho Suin Lee Taehyeon Kim Dae-Shik Kim VLM 65 1 0 18 Mar 2025
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model Tao Wang Changxu Cheng Lingfeng Wang Senda Chen Wuyue Zhao VLM 67 0 0 17 Mar 2025
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding R. Hu Lianghui Zhu Yuxuan Zhang Tianheng Cheng Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang ObjD 56 0 0 13 Mar 2025
2HandedAfforder: Learning Precise Actionable Bimanual Affordances from Human Videos Marvin Heidinger Snehal Jauhri V. Prasad Georgia Chalvatzaki 60 0 0 12 Mar 2025
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement Yuqi Liu Bohao Peng Zhisheng Zhong Zihao Yue Fanbin Lu Bei Yu Jiaya Jia LRM VLM 45 10 0 09 Mar 2025
Dictionary-based Framework for Interpretable and Consistent Object Parsing Tiezheng Zhang Qihang Yu Alan Yuille Ju He 72 1 0 26 Feb 2025
OLAF: A Plug-and-Play Framework for Enhanced Multi-object Multi-part Scene Parsing Pranav Gupta Rishubh Singh Pradeep Shenoy Ravikiran Sarvadevabhatla 29 0 0 05 Nov 2024
Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales Tang Li Mengmeng Ma Xi Peng 29 2 0 31 Oct 2024
Reproducibility study of "LICO: Explainable Models with Language-Image Consistency" Luan Fletcher Robert van der Klis Martin Sedláček Stefan Vasilev Christos Athanasiadis 21 1 0 17 Oct 2024
Towards Multi-Modal Animal Pose Estimation: A Survey and In-Depth Analysis Qianyi Deng Oishi Deb Amir Patel Christian Rupprecht Philip H. S. Torr Niki Trigoni Andrew Markham 28 0 0 12 Oct 2024
Unveiling Ontological Commitment in Multi-Modal Foundation Models Mert Keser Gesina Schwalbe Niki Amini-Naieni Matthias Rottmann Alois Knoll 16 1 0 25 Sep 2024
Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection Mingjin Zhang Chi Zhang Qiming Zhang Yunsong Li Xinbo Gao Jing Zhang VLM 30 3 0 07 Sep 2024
From Pixels to Objects: A Hierarchical Approach for Part and Object Segmentation Using Local and Global Aggregation Yunfei Xie Cihang Xie Alan Yuille Jieru Mei OCL 32 0 0 02 Sep 2024
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Yi-Chia Chen Wei-Hua Li Cheng Sun Yu-Chiang Frank Wang Chu-Song Chen VLM 30 10 0 01 Sep 2024
Visual Agents as Fast and Slow Thinkers Guangyan Sun Mingyu Jin Zhenting Wang Cheng-Long Wang Siqi Ma Qifan Wang Ying Nian Wu Ying Nian Wu Dongfang Liu Dongfang Liu LLMAG LRM 77 12 0 16 Aug 2024
Unsupervised Part Discovery via Dual Representation Alignment Jiahao Xia Wenjian Huang Min Xu Jianguo Zhang Haimin Zhang Ziyu Sheng Dong Xu 34 0 0 15 Aug 2024
PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects Junyi Li Junfeng Wu Weizhi Zhao Song Bai Xiang Bai 31 1 0 23 Jul 2024
PartImageNet++ Dataset: Scaling up Part-based Models for Robust Recognition Xiao-Li Li Yining Liu Na Dong Sitian Qin Xiaolin Hu 34 3 0 15 Jul 2024
WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models Xin-Jian Wu Rui-Song Zhang Jie Qin Shijie Ma Cheng-Lin Liu VLM 22 1 0 14 Jul 2024
SPIN: Hierarchical Segmentation with Subpart Granularity in Natural Images Josh Myers-Dean Jarek Reynolds Brian Price Yifei Fan Danna Gurari 32 2 0 12 Jul 2024
3x2: 3D Object Part Segmentation by 2D Semantic Correspondences Anh Thai Weiyao Wang Hao Tang Stefan Stojanov Matt Feiszli James M. Rehg 3DPC 39 3 0 12 Jul 2024
PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers Ananthu Aniraj C. Dantas Dino Ienco Diego Marcos 29 1 0 05 Jul 2024
Segment Anything without Supervision Xudong Wang Jingfeng Yang Trevor Darrell VLM 35 10 0 28 Jun 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 51 24 0 28 Jun 2024
Inpainting the Gaps: A Novel Framework for Evaluating Explanation Methods in Vision Transformers Lokesh Badisa Sumohana S. Channappayya 35 0 0 17 Jun 2024
Understanding Multi-Granularity for Open-Vocabulary Part Segmentation Jiho Choi Seonho Lee Seungho Lee Minhyun Lee Hyunjung Shim OCL 33 0 0 17 Jun 2024
Open-Vocabulary Part-Based Grasping Tjeard van Oort Dimity Miller Will N. Browne Nicolas Marticorena Jesse Haviland Niko Suenderhauf 3DPC 21 2 0 10 Jun 2024
F-LMM: Grounding Frozen Large Multimodal Models Size Wu Sheng Jin Wenwei Zhang Lumin Xu Wentao Liu Wei Li Chen Change Loy MLLM 73 12 0 09 Jun 2024
USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation Xiaoqi Wang Wenbin He Xiwei Xuan Clint Sebastian Jorge Henrique Piazentin Ono ... Sima Behpour T. Doan Liang Gou Han-Wei Shen Liu Ren VLM 19 5 0 07 Jun 2024
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception Run Luo Yunshui Li Longze Chen Wanwei He Ting-En Lin ... Zikai Song Xiaobo Xia Tongliang Liu Min Yang Binyuan Hui VLM DiffM 70 14 0 24 May 2024
Part-based Quantitative Analysis for Heatmaps Osman Tursun Sinan Kalkan Simon Denman S. Sridharan Clinton Fookes 24 0 0 22 May 2024
Efficient 4D Radar Data Auto-labeling Method using LiDAR-based Object Detection Network Min-Hyeok Sun Dong-Hee Paek Seung-Hyun Song Seung-Hyun Kong 17 2 0 13 May 2024
GraCo: Granularity-Controllable Interactive Segmentation Yian Zhao Kehan Li Ze-Long Cheng Pengchong Qiao Xiawu Zheng Rongrong Ji Chang Liu Li-ming Yuan Jie Chen 31 9 0 01 May 2024
SOHES: Self-supervised Open-world Hierarchical Entity Segmentation Shengcao Cao Jiuxiang Gu Jason Kuen Hao Tan Ruiyi Zhang Handong Zhao A. Nenkova Liangyan Gui Tong Sun Yu-Xiong Wang VLM OCL 33 3 0 18 Apr 2024
PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck Thang M. Pham Peijie Chen Tin Nguyen Seunghyun Yoon Trung Bui Anh Nguyen VLM 27 7 0 08 Mar 2024
LLMBind: A Unified Modality-Task Integration Framework Bin Zhu Munan Ning Peng Jin Bin Lin Jinfa Huang ... Junwu Zhang Zhenyu Tang Mingjun Pan Xing Zhou Li-ming Yuan MLLM 32 6 0 22 Feb 2024
Subobject-level Image Tokenization Delong Chen Samuel Cahyawijaya Jianfeng Liu Baoyuan Wang Pascale Fung VLM OCL 46 6 0 22 Feb 2024
Tracking with Human-Intent Reasoning Jiawen Zhu Zhi-Qi Cheng Jun-Yan He Chenyang Li Bin Luo Huchuan Lu Yifeng Geng Xuansong Xie LRM VOS 32 6 0 29 Dec 2023
Osprey: Pixel Understanding with Visual Instruction Tuning Yuqian Yuan Wentong Li Jian Liu Dongqi Tang Xinjie Luo Chi Qin Lei Zhang Jianke Zhu MLLM VLM 40 76 0 15 Dec 2023
Structural Information Guided Multimodal Pre-training for Vehicle-centric Perception Xiao Wang Wentao Wu Chenglong Li Zhicheng Zhao Zhe Chen Yukai Shi Jin Tang 35 4 0 15 Dec 2023
Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation Wenxuan Wang Tongtian Yue Yisi Zhang Longteng Guo Xingjian He Xinlong Wang Jing Liu ObjD 8 12 0 13 Dec 2023
Universal Segmentation at Arbitrary Granularity with Language Instruction Yong Liu Cairong Zhang Yitong Wang Jiahao Wang Yujiu Yang Yansong Tang VLM VOS 47 15 0 04 Dec 2023
Towards Open-Ended Visual Recognition with Large Language Model Qihang Yu Xiaohui Shen Liang-Chieh Chen VLM 22 8 0 14 Nov 2023
From Posterior Sampling to Meaningful Diversity in Image Restoration Noa Cohen Hila Manor Yuval Bahat T. Michaeli DiffM 22 10 0 24 Oct 2023
PDiscoNet: Semantically consistent part discovery for fine-grained recognition Robert van der Klis Stephan Alaniz Massimiliano Mancini C. Dantas Dino Ienco Zeynep Akata Diego Marcos 17 11 0 06 Sep 2023