Title
Unifying Segment Anything in Microscopy with Multimodal Large Language Model Manyu Li Ruian He Zixian Zhang Weimin Tan Bo Yan VLM 7 0 0 16 May 2025
Geofenced Unmanned Aerial Robotic Defender for Deer Detection and Deterrence (GUARD) Ebasa Temesgen Mario Jerez Greta Brown Graham Wilson Sree Ganesh Lalitaditya Divakarla Sarah Boelter Oscar Nelson Robert McPherson Maria Gini 17 0 0 16 May 2025
Search-TTA: A Multimodal Test-Time Adaptation Framework for Visual Search in the Wild Derek Ming Siang Tan Shailesh Boyang Liu Alok Raj Qi Xuan Ang ... Tanishq Duhan Jimmy Chiun Yuhong Cao Florian Shkurti Guillaume Sartoretti 12 0 0 16 May 2025
Estimating Deformable-Rigid Contact Interactions for a Deformable Tool via Learning and Model-Based Optimization Mark Van der Merwe Miquel Oller Dmitry Berenson Nima Fazeli 7 0 0 16 May 2025
SurgPose: Generalisable Surgical Instrument Pose Estimation using Zero-Shot Learning and Stereo Vision Utsav Rai Haozheng Xu Stamatia Giannarou MedIm 7 0 0 16 May 2025
Advances in Radiance Field for Dynamic Scene: From Neural Field to Gaussian Field Jinlong Fan Xuepu Zeng Jingyang Zhang Mingming Gong Yuxiang Yang Dacheng Tao 3DGS AI4CE 38 0 0 15 May 2025
Exploring the Deep Fusion of Large Language Models and Diffusion Transformers for Text-to-Image Synthesis Bingda Tang Boyang Zheng Xichen Pan Sayak Paul Saining Xie 29 0 0 15 May 2025
GA3CE: Unconstrained 3D Gaze Estimation with Gaze-Aware 3D Context Encoding Yuki Kawana Shintaro Shiba Quan Kong Norimasa Kobori 7 0 0 15 May 2025
A Unified and Scalable Membership Inference Method for Visual Self-supervised Encoder via Part-aware Capability Jie Zhu Jirong Zha Ding Li Leye Wang 31 0 0 15 May 2025
Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data Yiwen Liu Jessica Bader Jae Myung Kim DiffM 16 0 0 15 May 2025
Visual Fidelity Index for Generative Semantic Communications with Critical Information Embedding Jianhao Huang Qunsong Zeng Kaibin Huang DiffM 26 0 0 15 May 2025
Beyond General Prompts: Automated Prompt Refinement using Contrastive Class Alignment Scores for Disambiguating Objects in Vision-Language Models Lucas Choi Ross Greer VLM 30 0 0 14 May 2025
Train a Multi-Task Diffusion Policy on RLBench-18 in One Day with One GPU Yutong Hu Pinhao Song Kehan Wen R. Detry VLM 21 0 0 14 May 2025
Using Foundation Models as Pseudo-Label Generators for Pre-Clinical 4D Cardiac CT Segmentation Anne-Marie Rickmann S. Thorn S. Ahn Supum Lee Selen Uman ... Nicole Guerrera Francis G. Spinale Jason A. Burdick Albert J Sinusas James S. Duncan MedIm 26 0 0 14 May 2025
Recent Advances in Medical Imaging Segmentation: A Survey Fares Bougourzi Abdenour Hadid OOD 44 0 0 14 May 2025
Promoting SAM for Camouflaged Object Detection via Selective Key Point-based Guidance Guoying Liang Su Yang 29 0 0 14 May 2025
Leveraging Multi-Modal Information to Enhance Dataset Distillation Zhe Li Hadrien Reynaud Bernhard Kainz DD 45 0 0 13 May 2025
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning Zhaochen Su Linjie Li Mingyang Song Yunzhuo Hao Zhengyuan Yang ... Guanjie Chen Jiawei Gu Juntao Li Xiaoye Qu Yu Cheng OffRL LRM 31 0 0 13 May 2025
Controllable Image Colorization with Instance-aware Texts and Masks Yanru An Ling Gui Qiang Hu Chunlei Cai Tianxiao Ye Xiaoyun Zhang Yanfeng Wang DiffM 34 0 0 13 May 2025
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking Haofeng Liu Mingqi Gao Xuxiao Luo Ziyue Wang Guanyi Qin J. Wu Yueming Jin 37 0 0 13 May 2025
Leveraging Segment Anything Model for Source-Free Domain Adaptation via Dual Feature Guided Auto-Prompting Zheang Huai Hui Tang Yi Li Zhengzhang Chen Xiaomeng Li VLM 33 0 0 13 May 2025
Parameter-Efficient Fine-Tuning of Vision Foundation Model for Forest Floor Segmentation from UAV Imagery Mohammad Wasil Ahmad Drak Brennan Penfold Ludovico Scarton Maximilian Johenneken Alexander Asteroth Sebastian Houben 19 0 0 13 May 2025
Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving Zongchuang Zhao Haoyu Fu Dingkang Liang Xin Zhou Dingyuan Zhang Hongwei Xie Bing Wang Xiang Bai MLLM VLM 49 0 0 13 May 2025
Position: Restructuring of Categories and Implementation of Guidelines Essential for VLM Adoption in Healthcare Amara Tariq Rimita Lahiri Charles Kahn Imon Banerjee 26 0 0 12 May 2025
ABS-Mamba: SAM2-Driven Bidirectional Spiral Mamba Network for Medical Image Translation Feng Yuan Yifan Gao Wenbin Wu Keqing Wu Xiaotong Guo Jie Jiang Xin Gao Mamba 51 0 0 12 May 2025
CHD: Coupled Hierarchical Diffusion for Long-Horizon Tasks Ce Hao Anxing Xiao Zhiwei Xue Harold Soh 46 0 0 12 May 2025
Discovering Fine-Grained Visual-Concept Relations by Disentangled Optimal Transport Concept Bottleneck Models Yan Xie Zequn Zeng Hao Zhang Yucheng Ding Yishuo Wang Zhengjue Wang Bo Chen Hongwei Liu OT 33 0 0 12 May 2025
Skull stripping with purely synthetic data Jong Sung Park Juhyung Ha Siddhesh P. Thakur Alexandra Badea Spyridon Bakas Eleftherios Garyfallidis 36 0 0 12 May 2025
Bridging Ears and Eyes: Analyzing Audio and Visual Large Language Models to Humans in Visible Sound Recognition and Reducing Their Sensory Gap via Cross-Modal Distillation Xilin Jiang Junkai Wu Vishal B. Choudhari N. Mesgarani VLM 30 0 0 11 May 2025
Towards Artificial General or Personalized Intelligence? A Survey on Foundation Models for Personalized Federated Intelligence Yu Qiao Huy Q. Le Avi Deb Raha Phuong-Nam Tran Apurba Adhikary Mengchun Zhang Loc X. Nguyen Eui-nam Huh Dusit Niyato Choong Seon Hong AI4CE 31 0 0 11 May 2025
UniDiffGrasp: A Unified Framework Integrating VLM Reasoning and VLM-Guided Part Diffusion for Open-Vocabulary Constrained Grasping with Dual Arms Xueyang Guo Hongwei Hu Chengye Song J. Chen Zilin Zhao Yu Fu Bowen Guan Zhenze Liu 31 0 0 11 May 2025
Semantic-Guided Diffusion Model for Single-Step Image Super-Resolution Zihang Liu Zhenyu Zhang Hao Tang 29 0 0 11 May 2025
X-Sim: Cross-Embodiment Learning via Real-to-Sim-to-Real Prithwish Dan K. Kedia Angela Chao Edward Weiyi Duan Maximus Adrian Pace Wei-Chiu Ma Sanjiban Choudhury 23 0 0 11 May 2025
CMD: Controllable Multiview Diffusion for 3D Editing and Progressive Generation Peng Li Suizhi Ma Jialiang Chen Yuan Liu C. Zhang Wei Xue Wenhan Luo Alla Sheffer Wenping Wang Y. Guo DiffM 41 0 0 11 May 2025
MarkMatch: Same-Hand Stuffing Detection Fei Zhao Runlin Zhang Chengcui Zhang Nitesh Saxena 21 0 0 11 May 2025
Causal Prompt Calibration Guided Segment Anything Model for Open-Vocabulary Multi-Entity Segmentation Wenwen Qiang Jianqi Zhang Jingyao Wang Changwen Zheng VLM 37 0 0 10 May 2025
ReplayCAD: Generative Diffusion Replay for Continual Anomaly Detection Lei Hu Zhiyong Gan Ling Deng Jinglin Liang Lingyu Liang Shuangping Huang Tianshui Chen DiffM 31 0 0 10 May 2025
Automating Infrastructure Surveying: A Framework for Geometric Measurements and Compliance Assessment Using Point Cloud Data A. Ghafourian Andrew Lee Dechen Gao Tyler Beer Kin Yen Iman Soltani 31 0 0 09 May 2025
BrainSegDMlF: A Dynamic Fusion-enhanced SAM for Brain Lesion Segmentation Haozhao Wang Yifeng Wu Huimin Huang Hongtao Wu Jia-Xuan Jiang ... Hao Zheng Xian Wu Yefeng Zheng Jinping Xu Jing Cheng MedIm 31 0 0 09 May 2025
Adapting a Segmentation Foundation Model for Medical Image Classification Pengfei Gu Haoteng Tang Islam A. Ebeid Jose Angel Nuñez Fabian Vazquez Diego Adame Marcus Zhan Huimin Li Bin Fu Danny Chen MedIm VLM 41 0 0 09 May 2025
$RefRef: A Synthetic Dataset and Benchmark for Reconstructing Refractive and Reflective Objects$ RefRef: A Synthetic Dataset and Benchmark for Reconstructing Refractive and Reflective Objects Yue Yin Enze Tao Weijian Deng Dylan Campbell 42 0 0 09 May 2025
The Application of Deep Learning for Lymph Node Segmentation: A Systematic Review Jingguo Qu Xinyang Han Man-Lik Chui Yao Pu Simon Takadiyi Gunda ... Jing Qin Ann Dorothy King Winnie Chiu-Wing Chu J. Cai Michael Tin-Cheung Ying 31 0 0 09 May 2025
PromptIQ: Who Cares About Prompts? Let System Handle It -- A Component-Aware Framework for T2I Generation Nisan Chhetri Arpan Sainju 20 0 0 09 May 2025
InstanceGen: Image Generation with Instance-level Instructions Etai Sella Yanir Kleiman Hadar Averbuch-Elor 33 0 0 08 May 2025
CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory Weichen Zhang Chen Gao Shiquan Yu Ruiying Peng Baining Zhao Qian Zhang Jinqiang Cui Xinlei Chen Yongqian Li LLMAG LM&Ro 47 0 0 08 May 2025
FLAM: Frame-Wise Language-Audio Modeling Yusong Wu Christos Tsirigotis Ke Chen Cheng-Zhi Anna Huang Aaron C. Courville Oriol Nieto Prem Seetharaman Justin Salamon 50 0 0 08 May 2025
Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model Navin Ranjan Andreas E. Savakis MQ VLM 65 0 0 08 May 2025
Joint Super-Resolution and Segmentation for 1-m Impervious Surface Area Mapping in China's Yangtze River Economic Belt Jie Deng Danfeng Hong Chenyu Li Naoto Yokoya 42 0 0 08 May 2025
Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization Xi Yang Songsong Duan Nannan Wang Xinbo Gao WSOL 78 0 0 08 May 2025
SOAP: Style-Omniscient Animatable Portraits Tingting Liao Yujian Zheng Adilbek Karmanov Liwen Hu Leyang Jin Yuliang Xiu Hao Li DiffM 161 0 0 08 May 2025