Title
GraspCoT: Integrating Physical Property Reasoning for 6-DoF Grasping under Flexible Language Instructions Xiaomeng Chu Jiajun Deng Guoliang You Wei Liu Xuzhao Li Jianmin Ji Wenjie Qu 84 0 0 20 Mar 2025
Single Image Iterative Subject-driven Generation and Editing Yair Shpitzer Gal Chechik Idan Schwartz 53 0 0 20 Mar 2025
SALT: Singular Value Adaptation with Low-Rank Transformation Abdelrahman Elsayed Sarim Hashmi Mohammed Elseiagy Hu Wang Mohammad Yaqub Ibrahim Almakky OOD 55 0 0 20 Mar 2025
Learning to Efficiently Adapt Foundation Models for Self-Supervised Endoscopic 3D Scene Reconstruction from Any Cameras Beilei Cui Long Bai Mobarakol Islam An-Chi Wang Z. Ma ... Feng Li Zhen Chen Zhongliang Jiang Nassir Navab Hongliang Ren MedIm 65 0 0 20 Mar 2025
MapGlue: Multimodal Remote Sensing Image Matching Peihao Wu Yongxiang Yao Wenfei Zhang Dong Wei Y. Wan Yansheng Li Yongjun Zhang 44 0 0 20 Mar 2025
CausalCLIPSeg: Unlocking CLIP's Potential in Referring Medical Image Segmentation with Causal Intervention Yaxiong Chen Minghong Wei Zixuan Zheng Jingliang Hu Yilei Shi Shengwu Xiong Xiao Xiang Zhu Lichao Mou MedIm 48 0 0 20 Mar 2025
4D Gaussian Splatting SLAM Yanyan Li Youxu Fang Zunjie Zhu Kunyi Li Yong Ding Federico Tombari 3DGS 51 0 0 20 Mar 2025
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding Jinlong Li Cristiano Saltori Fabio Poiesi N. Sebe 204 0 0 20 Mar 2025
PoseTraj: Pose-Aware Trajectory Control in Video Diffusion Longbin Ji Lei Zhong Pengfei Wei Changjian Li DiffM VGen 46 0 0 20 Mar 2025
M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation Markus Karmann Peng-Tao Jiang Bo Li O. Urfalioglu 47 0 0 20 Mar 2025
M3: 3D-Spatial MultiModal Memory Xueyan Zou Yuchen Song Ri-Zhao Qiu Xuanbin Peng Jianglong Ye Sifei Liu Xiaolong Wang 3DGS 62 0 0 20 Mar 2025
NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes Han-Hung Lee Qinghong Han Angel X. Chang 86 0 0 20 Mar 2025
3D Occupancy Prediction with Low-Resolution Queries via Prototype-aware View Transformation Gyeongrok Oh Sungjune Kim Heeju Ko Hyung-Gun Chi J. Kim Dongwook Lee Daehyun Ji Sungjoon Choi Sujin Jang Sangpil Kim 41 0 0 19 Mar 2025
Toward task-driven satellite image super-resolution Maciej Ziaja Pawel Kowaleczko Daniel Kostrzewa Nicolas Longépé M. Kawulok SupR 79 0 0 19 Mar 2025
Language-based Image Colorization: A Benchmark and Beyond Yongqian Li Shuai Yang Jiaying Liu DiffM VLM 51 0 0 19 Mar 2025
USAM-Net: A U-Net-based Network for Improved Stereo Correspondence and Scene Depth Estimation using Features from a Pre-trained Image Segmentation network Joseph Emmanuel DL Dayo Prospero C. Naval Jr 63 0 0 19 Mar 2025
GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback Sungjae Lee Yeonjoo Hong Kwang In KIm 51 0 0 19 Mar 2025
SUM Parts: Benchmarking Part-Level Semantic Segmentation of Urban Meshes Weixiao Gao Liangliang Nan H. Ledoux 3DV 3DPC 43 0 0 19 Mar 2025
FedSCA: Federated Tuning with Similarity-guided Collaborative Aggregation for Heterogeneous Medical Image Segmentation Yumin Zhang Yan Gao Haoran Duan Hanqing Guo Tejal Shah R. Ranjan Bo Wei FedML 84 0 0 19 Mar 2025
CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation Masud Ahmed Zahid Hasan Syed Arefinul Haque A. Faridee S. Purushotham Suya You Nirmalya Roy 60 0 0 19 Mar 2025
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior Junfeng Ni Yu Liu Ruijie Lu Zirui Zhou Song-Chun Zhu Yixin Chen Siyuan Huang DiffM 72 4 0 19 Mar 2025
Visual Position Prompt for MLLM based Visual Grounding Wei Tang Yanpeng Sun Qinying Gu Zechao Li VLM 50 0 0 19 Mar 2025
Transport-Related Surface Detection with Machine Learning: Analyzing Temporal Trends in Madrid and Vienna Miguel Ureña Pliego Rubén Martínez Marín Nianfang Shi Takeru Shibayama Ulrich Leth Miguel Marchamalo Sacristán 58 0 0 19 Mar 2025
Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives Sara Sarto Marcella Cornia Rita Cucchiara 48 0 0 18 Mar 2025
Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding Zining Wang Tongkun Guan Pei Fu Chen Duan Qianyi Jiang Zhentao Guo Shan Guo Junfeng Luo Wei-Ming Shen Xiaokang Yang MLLM VLM 71 1 0 18 Mar 2025
Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting Runsong Zhu Shi Qiu Zhengzhe Liu Ka-Hei Hui Qianyi Wu Pheng Ann Heng Chi-Wing Fu 3DGS 3DV 96 1 0 18 Mar 2025
MAST-Pro: Dynamic Mixture-of-Experts for Adaptive Segmentation of Pan-Tumors with Knowledge-Driven Prompts Runqi Meng S. Song Pengfei Jin Y. Oh L. Teng ... L. Chen Xuzhao Li Quanzheng Li Ning Guo Dinggang Shen 56 0 0 18 Mar 2025
MMR: A Large-scale Benchmark Dataset for Multi-target and Multi-granularity Reasoning Segmentation Donggon Jang Yucheol Cho Suin Lee Taehyeon Kim Dae-Shik Kim VLM 65 1 0 18 Mar 2025
Operational Change Detection for Geographical Information: Overview and Challenges Nicolas Gonthier 53 0 0 18 Mar 2025
EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models Zongyun Zhang Jiacheng Ruan Xian Gao Ting Liu Yuzhuo Fu 70 2 0 18 Mar 2025
Mapping Urban Villages in China: Progress and Challenges Rui Cao Wei Tu Dongsheng Chen Wenyu Zhang AI4TS 57 0 0 18 Mar 2025
3DAxisPrompt: Promoting the 3D Grounding and Reasoning in GPT-4o Dingning Liu Cheng Wang Peng Gao Renrui Zhang Xinzhu Ma Yuan Meng Zhihui Wang LRM 49 0 0 17 Mar 2025
DeGauss: Dynamic-Static Decomposition with Gaussian Splatting for Distractor-free 3D Reconstruction Rui Wang Q. Lohmeyer Mirko Meboldt Siyu Tang 3DGS 67 0 0 17 Mar 2025
Dynamic Relation Inference via Verb Embeddings Omri Suissa Muhiim Ali Ariana Azarbal Hui Shen Shekhar Pradhan 46 0 0 17 Mar 2025
Integrating AI for Human-Centric Breast Cancer Diagnostics: A Multi-Scale and Multi-View Swin Transformer Framework Farnoush Bayatmakou Reza Taleei Milad Amir Toutounchian Arash Mohammadi 41 0 0 17 Mar 2025
SAM2 for Image and Video Segmentation: A Comprehensive Survey Zhang Jiaxing Tang Hao VLM 54 0 0 17 Mar 2025
UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation Yinqiao Wang Hao Xu Pheng Ann Heng Chi-Wing Fu 3DH 53 0 0 17 Mar 2025
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing Yaowei Li Lingen Li Zhaoyang Zhang Xiaoyu Li Guangzhi Wang Hongxiang Li Xiaodong Cun Ying Shan Yuexian Zou DiffM 67 1 0 17 Mar 2025
Learning-based 3D Reconstruction in Autonomous Driving: A Comprehensive Survey Liewen Liao Weihao Yan Ming Yang Songan Zhang 3DV 91 0 0 17 Mar 2025
Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation Henghui Du Guangyao Li Chang Zhou Chunjie Zhang Alan Zhao D. Hu 59 0 0 17 Mar 2025
E-Values Expand the Scope of Conformal Prediction Etienne Gauthier Francis Bach Michael I. Jordan 47 1 0 17 Mar 2025
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model Tao Wang Changxu Cheng Lingfeng Wang Senda Chen Wuyue Zhao VLM 72 0 0 17 Mar 2025
SAM2-ELNet: Label Enhancement and Automatic Annotation for Remote Sensing Segmentation Jianhao Yang Wenshuo Yu Yuanchao Lv Jiance Sun Bokang Sun Mingyang Liu 51 0 0 16 Mar 2025
History-Aware Transformation of ReID Features for Multiple Object Tracking Ruopeng Gao Yidan Wang Chunxu Liu Limin Wang VOT 81 1 0 16 Mar 2025
Pathology Image Restoration via Mixture of Prompts Jiangdong Cai Yan Chen Zhenrong Shen Haotian Jiang Honglin Xiong Kai Xuan Lichi Zhang Qian Wang MedIm 53 0 0 16 Mar 2025
Segment Any-Quality Images with Generative Latent Space Enhancement Guangqian Guo Yoong Guo Xuehui Yu Wenbo Li Yaoxing Wang Shan Gao VLM 77 0 0 16 Mar 2025
Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection Shufan Li Konstantinos Kallidromitis Akash Gokul Arsh Koneru Yusuke Kato Kazuki Kozuka Aditya Grover VLM 72 1 0 15 Mar 2025
ROS-SAM: High-Quality Interactive Segmentation for Remote Sensing Moving Object Zhe Shan Yang Liu Lei Zhou C. Yan Haoyu Wang Xia Xie 44 1 0 15 Mar 2025
TACO: Taming Diffusion for in-the-wild Video Amodal Completion Ruijie Lu Yixin Chen Yu Liu Jiaxiang Tang Junfeng Ni Diwen Wan Gang Zeng Siyuan Huang DiffM VGen 51 3 0 15 Mar 2025
Minuscule Cell Detection in AS-OCT Images with Progressive Field-of-View Focusing Boyu Chen A. L. Solebo Daqian Shi Jinge Wu Paul Taylor 67 0 0 15 Mar 2025