Title
MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments Ege Özsoy Chantal Pellegrini Tobias Czempiel Felix Tristram Kun Yuan D. Bani-Harouni U. Eck Benjamin Busam Matthias Keicher Nassir Navab 88 2 0 04 Mar 2025
Four Principles for Physically Interpretable World Models Jordan Peper Zhenjiang Mao Yuang Geng Siyuan Pan Ivan Ruchkin 110 1 0 04 Mar 2025
Label-Efficient LiDAR Panoptic Segmentation Ahmet Selim Çanakçı Niclas Vodisch Kürsat Petek Wolfram Burgard Abhinav Valada 3DPC 88 0 0 04 Mar 2025
Vision-Language Model IP Protection via Prompt-based Learning Lianyu Wang Hao Wu Huazhu Fu Daoqiang Zhang VLM Presented at ResearchTrend Connect \| VLM on 28 Mar 2025 135 0 0 04 Mar 2025
Semantic Prior Distillation with Vision Foundation Model for Enhanced Rapid Bone Scintigraphy Image Restoration Pengchen Liang Leijun Shi Huiping Yao Bin Pu Jianguo Chen ... Zheyu Chen Zhaozhao Xu Lite Xu Qing Chang Yiwei Li 80 0 0 04 Mar 2025
Exploring Model Quantization in GenAI-based Image Inpainting and Detection of Arable Plants Sourav Modak Ahmet Oğuz Saltık Anthony Stein MQ 53 0 0 04 Mar 2025
Boltzmann Attention Sampling for Image Analysis with Small Objects Theodore Zhao Sid Kiblawi Naoto Usuyama Ho Hin Lee Sam Preston Hoifung Poon Mu-Hsin Wei MedIm 73 0 0 04 Mar 2025
Building 3D In-Context Learning Universal Model in Neuroimaging Jiesi Hu Hanyang Peng Yanwu Yang Xutao Guo Yang Shang P. Shi Chenfei Ye Ting Ma 69 0 0 04 Mar 2025
A Token-level Text Image Foundation Model for Document Understanding Tongkun Guan Zining Wang Pei Fu Zhengtao Guo Wei-Ming Shen ... Chen Duan Hao Sun Qianyi Jiang Junfeng Luo Xiaokang Yang VLM 52 1 0 04 Mar 2025
FlowPlan: Zero-Shot Task Planning with LLM Flow Engineering for Robotic Instruction Following Zijun Lin Chao Tang Hanjing Ye Hong Zhang 52 0 0 04 Mar 2025
Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance Jiayi Zhao Fei Teng Kai Luo Guoqiang Zhao Zhiyu Li Xu Zheng Kailun Yang VLM 79 6 0 04 Mar 2025
Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views Yingji Zhong Kaichen Zhou Zhihao Li Lanqing Hong Feiyu Xiong Dan Xu 59 1 0 04 Mar 2025
Out-of-Distribution Segmentation in Autonomous Driving: Problems and State of the Art Youssef Shoeb Azarm Nowzad Hanno Gottschalk UQCV 87 2 0 04 Mar 2025
SAR-W-MixMAE: SAR Foundation Model Training Using Backscatter Power Weighting Ali Caglayan Nevrez Imamoglu T. Kouyama 75 0 0 03 Mar 2025
RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation Haichao Liu Sikai Guo Pengfei Mai Jiahang Cao Haoang Li Jun Ma 52 1 0 03 Mar 2025
Comprehensive Evaluation of OCT-based Automated Segmentation of Retinal Layer, Fluid and Hyper-Reflective Foci: Impact on Diabetic Retinopathy Severity Assessment S. Chen D. Ma M. Raviselvan S. Sundaramoorthy K. Popuri M. J. Ju M. V. Sarunic D. Ratra M. F. Beg 73 0 0 03 Mar 2025
Convex Hull-based Algebraic Constraint for Visual Quadric SLAM Xiaolong Yu Junqiao Zhao Shuangfu Song Zhongyang Zhu Zihan Yuan Chen Ye T. Feng 52 0 0 03 Mar 2025
Understanding Dataset Distillation via Spectral Filtering Deyu Bo Songhua Liu Xinchao Wang DD 82 0 0 03 Mar 2025
Conditional Electrocardiogram Generation Using Hierarchical Variational Autoencoders Ivan Sviridov Konstantin Egorov DRL SyDa 55 0 0 03 Mar 2025
One-shot In-context Part Segmentation Zhenqi Dai Ting Liu X. Zhang Y. X. Wei Yanning Zhang VLM 85 1 0 03 Mar 2025
Language-Guided Object Search in Agricultural Environments Advaith Balaji Saket Pradhan Dmitry Berenson LM&Ro 50 0 0 03 Mar 2025
Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond Guanyao Wu Haoyu Liu Hongming Fu Yichuan Peng Jinyuan Liu Xin-Yue Fan Risheng Liu 73 0 0 03 Mar 2025
OpenGS-SLAM: Open-Set Dense Semantic SLAM with 3D Gaussian Splatting for Object-Level Scene Understanding Dianyi Yang Yu Gao Xihan Wang Yufeng Yue Yi Yang M. Fu 3DGS 64 1 0 03 Mar 2025
SparseMamba-PCL: Scribble-Supervised Medical Image Segmentation via SAM-Guided Progressive Collaborative Learning Luyi Qiu Tristan Till Xiaobao Guo A. Kong Mamba 51 1 0 03 Mar 2025
Hypergraph Foundation Model Yifan Feng Shiquan Liu Xiangmin Han Shaoyi Du Zongze Wu Han Hu Yue Gao AI4CE 38 0 0 03 Mar 2025
A Leaf-Level Dataset for Soybean-Cotton Detection and Segmentation Thiago H. Segreto Juliano Negri Paulo H. Polegato João Manoel Herrera Pinheiro Ricardo V. Godoy Marcelo Becker 50 0 0 03 Mar 2025
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface Hao Tang Chenwei Xie Haiyang Wang Xiaoyi Bao Tingyu Weng Pandeng Li Yun Zheng Liwei Wang ObjD VLM 64 0 0 03 Mar 2025
Visual-RFT: Visual Reinforcement Fine-Tuning Ziyu Liu Zeyi Sun Yuhang Zang Xiaoyi Dong Yuhang Cao Haodong Duan Dahua Lin Jiaqi Wang ObjD VLM LRM 72 48 0 03 Mar 2025
DifIISR: A Diffusion Model with Gradient Guidance for Infrared Image Super-Resolution Xingyuan Li Zhangyu Wang Yang Zou Zhaoyu Chen Jun Ma Zhiying Jiang Long Ma Jinyuan Liu 80 1 0 03 Mar 2025
OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging Yijie Tang Jiazhao Zhang Yuqing Lan Yulan Guo Dezun Dong Chenyang Zhu K. Xu 240 0 0 03 Mar 2025
Vid2Avatar-Pro: Authentic Avatar from Videos in the Wild via Universal Prior Chen Guo Junxuan Li Yash Kant Yaser Sheikh Shunsuke Saito Chen Cao 45 1 0 03 Mar 2025
IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis Yitong Wang Jingchen Ni Yong-Jin Liu Chun Yuan Yansong Tang 58 1 0 02 Mar 2025
MTReD: 3D Reconstruction Dataset for Fly-over Videos of Maritime Domain Rui Yi Yong Samuel Picosson Arnold Wiliem 42 0 0 02 Mar 2025
Foundation Models Secretly Understand Neural Network Weights: Enhancing Hypernetwork Architectures with Foundation Models Jeffrey Gu Serena Yeung-Levy AI4CE 34 0 0 02 Mar 2025
GenAnalysis: Joint Shape Analysis by Learning Man-Made Shape Generators with Deformation Regularizations Yuezhi Yang Haitao Yang Kiyohiro Nakayama Xiangru Huang Leonidas J. Guibas Qixing Huang 36 0 0 02 Mar 2025
Dynamic Gradient Sparsification Training for Few-Shot Fine-tuning of CT Lymph Node Segmentation Foundation Model Zihao Luo Zijun Gao Wenjun Liao Shichuan Zhang Guotai Wang Xiangde Luo 52 0 0 02 Mar 2025
Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning Hanxun Yu Wentong Li Song Wang Jintai Chen Jianke Zhu 3DV LRM 86 3 0 01 Mar 2025
Split Adaptation for Pre-trained Vision Transformers Lixu Wang Bingqi Shang Yuchen Li Payal Mohapatra Wei Dong Xiao-Xu Wang Qi Zhu ViT 45 0 0 01 Mar 2025
Seeing A 3D World in A Grain of Sand Yufan Zhang Yu Ji Yu Guo Jinwei Ye 3DV 50 0 0 01 Mar 2025
Brain Foundation Models: A Survey on Advancements in Neural Signal Processing and Brain Discovery Xinliang Zhou Chenyu Liu Zhenpeng Chen Kun Wang Yi Ding Ziyu Jia Qingsong Wen AI4CE 42 0 0 01 Mar 2025
Solving Instance Detection from an Open-World Perspective Qianqian Shen Yunhan Zhao Nahyun Kwon Jeeeun Kim Yanan Li Shu Kong 45 0 0 01 Mar 2025
Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference Systems Song Xia Yi Yu Wenhan Yang Meiwen Ding Zhuo Chen Lingyu Duan Alex C. Kot Xudong Jiang 56 2 0 01 Mar 2025
Less is More? Revisiting the Importance of Frame Rate in Real-Time Zero-Shot Surgical Video Segmentation Utku Ozbulak Seyed Amir Mousavi Francesca Tozzi Nikdokht Rashidian W. Willaert W. D. Neve J. Vankerschaver 47 0 0 28 Feb 2025
T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting Yifei Qian Zhongliang Guo Bowen Deng Chun Tong Lei Shuai Zhao Chun Pong Lau Xiaopeng Hong Michael P. Pound DiffM 64 0 0 28 Feb 2025
Adaptive Keyframe Sampling for Long Video Understanding Xi Tang Jihao Qiu Lingxi Xie Yunjie Tian Jianbin Jiao Qixiang Ye 85 0 0 28 Feb 2025
CNSv2: Probabilistic Correspondence Encoded Neural Image Servo Anzhe Chen Hongxiang Yu Shuxin Li Yuxi Chen Zhongxiang Zhou Wentao Sun R. Xiong Yixuan Wang 34 0 0 28 Feb 2025
The Common Objects Underwater (COU) Dataset for Robust Underwater Object Detection Rishi Mukherjee Sakshi Singh Jack McWilliams Junaed Sattar 59 1 0 28 Feb 2025
LesionLocator: Zero-Shot Universal Tumor Segmentation and Tracking in 3D Whole-Body Imaging Maximilian R. Rokuss Yannick Kirchhoff Seval Akbal Balint Kovacs Saikat Roy Constantin Ulrich Tassilo Wald Lukas T. Rotkopf H. Schlemmer Klaus H. Maier-Hein 3DV MedIm 46 1 0 28 Feb 2025
Spiking Transformer:Introducing Accurate Addition-Only Spiking Self-Attention for Transformer Yufei Guo Xiaode Liu Y. Chen Weihang Peng Yuhan Zhang Zhe Ma MQ 48 1 0 28 Feb 2025
Open-Vocabulary Semantic Part Segmentation of 3D Human Keito Suzuki Bang Du Girish Krishnan Kunyao Chen Runfa Li Truong Thao Nguyen 3DH VLM 103 0 0 27 Feb 2025