Title
PicoPose: Progressive Pixel-to-Pixel Correspondence Learning for Novel Object Pose Estimation Lihua Liu Jiehong Lin Zhenxin Liu Kui Jia 45 0 0 03 Apr 2025
Delineate Anything: Resolution-Agnostic Field Boundary Delineation on Satellite Imagery Mykola Lavreniuk Nataliia Kussul Andrii Shelestov Bohdan Yailymov Yevhenii Salii Volodymyr Kuzin Zoltan Szantoi 34 0 0 03 Apr 2025
X-Capture: An Open-Source Portable Device for Multi-Sensory Learning Samuel Clarke Suzannah Wistreich Yanjie Ze Jiajun Wu 41 0 0 03 Apr 2025
Agglomerating Large Vision Encoders via Distillation for VFSS Segmentation Chengxi Zeng Yuxuan Jiang Fan Zhang A. Gambaruto T. Burghardt MedIm 48 0 0 03 Apr 2025
A Framework for Situating Innovations, Opportunities, and Challenges in Advancing Vertical Systems with Large AI Models Gaurav Verma Jiawei Zhou Mohit Chandra Srijan Kumar M. D. Choudhury 53 0 0 03 Apr 2025
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation Van Nguyen Nguyen Stephen Tyree Andrew Guo Mederic Fourmy Anas Gouda ... Stan Birchfield Jiri Matas Yann Labbé M. Sundermeyer Tomás Hodan 3DPC 58 1 0 03 Apr 2025
APSeg: Auto-Prompt Model with Acquired and Injected Knowledge for Nuclear Instance Segmentation and Classification Liying Xu Hongliang He Wei Han Hanbin Huang Siwei Feng Guohong Fu VLM 67 0 0 03 Apr 2025
Prompt-Guided Attention Head Selection for Focus-Oriented Image Retrieval Yuji Nozawa Yu Lin Kazumoto Nakamura Youyang Ng 43 0 0 02 Apr 2025
Multimodal Reference Visual Grounding Yangxiao Lu Ruosen Li Liqiang Jing Jikai Wang Xinya Du Yunhui Guo Nicholas Ruozzi Yu Xiang ObjD 78 0 0 02 Apr 2025
v-CLR: View-Consistent Learning for Open-World Instance Segmentation Chang-Bin Zhang Jinhong Ni Yujie Zhong Kai Han 3DV VLM 69 0 0 02 Apr 2025
Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities Jing Liu Wenxuan Wang Yisi Zhang Yepeng Tang Xingjian He Longteng Guo Tongtian Yue Xinlong Wang ObjD 53 0 0 02 Apr 2025
Instance Migration Diffusion for Nuclear Instance Segmentation in Pathology Lirui Qi Hongliang He Tong Wang Siwei Feng Guohong Fu MedIm 41 0 0 02 Apr 2025
ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric Interaction Yuejiao Su Yi Wang Qiongyang Hu Chuang Yang Lap-Pui Chau 47 0 0 02 Apr 2025
BiSeg-SAM: Weakly-Supervised Post-Processing Framework for Boosting Binary Segmentation in Segment Anything Models Encheng Su Hu Cao Alois C. Knoll MedIm 43 0 0 02 Apr 2025
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness Haochen Wang Yucheng Zhao Tiancai Wang Haoqiang Fan Xinming Zhang Zhaoxiang Zhang 68 0 0 02 Apr 2025
Scene-Centric Unsupervised Panoptic Segmentation Oliver Hahn Christoph Reich Nikita Araslanov Daniel Cremers Christian Rupprecht Stefan Roth OCL 62 0 0 02 Apr 2025
Slot-Level Robotic Placement via Visual Imitation from Single Human Video Dandan Shan Kaichun Mo Wei Yang Yu-Wei Chao David Fouhey Dieter Fox Arsalan Mousavian 38 0 0 02 Apr 2025
Preference-Driven Active 3D Scene Representation for Robotic Inspection in Nuclear Decommissioning Zhen Meng Kan Chen Xiangmin Xu Erwin Jose Lopez Pulgarin Emma Li Philip Guodong Zhao David Flynn 35 0 0 02 Apr 2025
Multi-party Collaborative Attention Control for Image Customization Han Yang Chuanguang Yang Qiuli Wang Zhulin An Weilun Feng Libo Huang Yongjun Xu DiffM 35 0 0 02 Apr 2025
Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis Zixuan Wang Duo Peng Feng Chen Yuqing Yang Yinjie Lei DiffM 79 0 0 02 Apr 2025
MDP: Multidimensional Vision Model Pruning with Latency Constraint Xinglong Sun Barath Lakshmanan Maying Shen Shiyi Lan Jingde Chen Jose M. Alvarez VLM 49 0 0 02 Apr 2025
UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting Jaehoon Choi Dongki Jung Yonghan Lee Sungmin Eum Dinesh Manocha H. Kwon 3DGS 51 0 0 02 Apr 2025
RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring and Safety Andrei Dumitriu Florin Tatui Florin Miron Aakash Ralhan Radu Tudor Ionescu Radu Timofte 50 0 0 01 Apr 2025
Zero-Shot 4D Lidar Panoptic Segmentation Yushan Zhang Aljosa Osep Laura Leal-Taixé Tim Meinhardt 3DPC 47 1 0 01 Apr 2025
Balancing Multi-Target Semi-Supervised Medical Image Segmentation with Collaborative Generalist and Specialists Yansen Wang Zekun Li Lei Qi Qian Yu Yinghuan Shi Yang Gao 39 0 0 01 Apr 2025
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors Tian-Xing Xu Xiangjun Gao Wenbo Hu Xiaoyu Li Song-Hai Zhang Ying Shan VGen MDE 63 1 0 01 Apr 2025
CamoSAM2: Motion-Appearance Induced Auto-Refining Prompts for Video Camouflaged Object Detection Xin Zhang Keren Fu Qijun Zhao VGen 34 1 0 01 Apr 2025
CellVTA: Enhancing Vision Foundation Models for Accurate Cell Segmentation and Classification Yang Yang Xijie Xu Yixun Zhou Jie Zheng ViT 38 0 0 01 Apr 2025
DBF-UNet: A Two-Stage Framework for Carotid Artery Segmentation with Pseudo-Label Generation Haoxuan Li Wei song Aofan Liu Peiwu Qin 41 0 0 01 Apr 2025
4th PVUW MeViS 3rd Place Report: Sa2VA Haobo Yuan Tao Zhang Xuelong Li Lu Qi Zilong Huang Shilin Xu Jiashi Feng Ming Yang 47 1 0 01 Apr 2025
Distilling Multi-view Diffusion Models into 3D Generators Hao Qin Luyuan Chen Ming Kong Mengxu Lu Qiang Zhu 3DGS 64 0 0 01 Apr 2025
POPEN: Preference-Based Optimization and Ensemble for LVLM-Based Reasoning Segmentation Lanyun Zhu Tianrun Chen Qianxiong Xu Xuanyi Liu Deyi Ji Haiyang Wu De Wen Soh Xiaozhong Liu VLM LRM 50 0 0 01 Apr 2025
Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image Segmentation Ting Liu Siyuan Li 44 0 0 01 Apr 2025
Exploring the Collaborative Advantage of Low-level Information on Generalizable AI-Generated Image Detection Ziyin Zhou Ke Sun Zhongxi Chen Xianming Lin Yunpeng Luo Ke Yan Shouhong Ding Xiaoshuai Sun 36 0 0 01 Apr 2025
Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation Xiaoqing Guo W. J. Li Yixuan Yuan 55 0 0 31 Mar 2025
Consistent Subject Generation via Contrastive Instantiated Concepts Lee Hsin-Ying Kelvin Chan Ming Yang DiffM 95 0 0 31 Mar 2025
On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices Bosung Kim Kyuhwan Lee Isu Jeong Jungmin Cheon Yeojin Lee Seulki Lee VGen 50 0 0 31 Mar 2025
IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration Valentin Boussot Cédric Hémon Jean-Claude Nunes Jason Downling Simon Rouzé Caroline Lafond Anaïs Barateau Jean-Louis Dillenseger 51 0 0 31 Mar 2025
Detecting Glioma, Meningioma, and Pituitary Tumors, and Normal Brain Tissues based on Yolov11 and Yolov8 Deep Learning Models Ahmed M. Taha Salah A. Aly Mohamed F. Darwish 31 0 0 31 Mar 2025
Pre-training with 3D Synthetic Data: Learning 3D Point Cloud Instance Segmentation from 3D Synthetic Scenes Daichi Otsuka Shinichi Mae Ryosuke Yamada Hirokatsu Kataoka 3DPC 42 0 0 31 Mar 2025
SmartScan: An AI-based Interactive Framework for Automated Region Extraction from Satellite Images S. Nagendra Kashif Rashid 45 0 0 31 Mar 2025
Multi-Task Learning for Extracting Menstrual Characteristics from Clinical Notes Anna Shopova Cristoph Lippert Leslee J. Shaw Eugenia Alleva 47 0 0 31 Mar 2025
Conformal uncertainty quantification to evaluate predictive fairness of foundation AI model for skin lesion classes across patient demographics Swarnava Bhattacharyya Umapada Pal Tapabrata Chakraborti MedIm 49 0 0 31 Mar 2025
SALT: A Flexible Semi-Automatic Labeling Tool for General LiDAR Point Clouds with Cross-Scene Adaptability and 4D Consistency Yanbo Wang Yongtao Chen Chuan Cao Tianchen Deng Wentao Zhao Jingchuan Wang Weidong Chen 69 1 0 31 Mar 2025
A Survey on Unlearnable Data Jiahao Li Yiqiang Chen Yunbing Xing Yang Gu Xiangyuan Lan AAML 58 0 0 30 Mar 2025
Beyond Academic Benchmarks: Critical Analysis and Best Practices for Visual Industrial Anomaly Detection Aimira Baitieva Yacine Bouaouni Alexandre Briot Dick Ameln Souhaiel Khalfaoui S. Akçay 44 0 0 30 Mar 2025
CADFormer: Fine-Grained Cross-modal Alignment and Decoding Transformer for Referring Remote Sensing Image Segmentation Maofu Liu Xin Jiang Xiaokang Zhang 54 0 0 30 Mar 2025
ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning Zhenyang Liu Yikai Wang Sixiao Zheng Tongying Pan Longfei Liang Yanwei Fu Xiangyang Xue LRM 54 0 0 30 Mar 2025
Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts Jianhua Sun Jiude Wei Yong Li Cewu Lu LM&Ro 54 1 0 30 Mar 2025
ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025 Tianming Liang Haichao Jiang Wei-Shi Zheng Jian-Fang Hu 44 0 0 30 Mar 2025