Title
Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models Sangmin Woo Kang Zhou Yun Zhou Shuai Wang Sheng Guan Haibo Ding Lin Lee Cheong VPVLM 83 0 0 30 Apr 2025
RoboGround: Robotic Manipulation with Grounded Vision-Language Priors Haifeng Huang Xinyi Chen Y. Chen Hao Li Xiaoshen Han Zihao Wang Tai Wang Jiangmiao Pang Zhou Zhao LM&Ro 80 0 0 30 Apr 2025
SAM4EM: Efficient memory-based two stage prompt-free segment anything model adapter for complex 3D neuroscience electron microscopy stacks Uzair Shah Marco Agus Daniya Boges Vanessa Chiappini M. Alzubaidi J. Schneider Markus Hadwiger Pierre J. Magistretti Mowafa J Househ Corrado Calı 43 0 0 30 Apr 2025
Localizing Before Answering: A Hallucination Evaluation Benchmark for Grounded Medical Multimodal LLMs Dung Tien Nguyen Minh Khoi Ho Huy Ta T. Nguyen Qi Chen ... Zhibin Liao Minh Nguyen Nhat To Johan W. Verjans Phi Le Nguyen Vu Minh Hieu Phan 29 0 0 30 Apr 2025
Adapting In-Domain Few-Shot Segmentation to New Domains without Retraining Qi Fan Kaiqi Liu Nian Liu Hisham Cholakkal Rao Muhammad Anwer Wenbin Li Yang Gao 74 0 0 30 Apr 2025
Style-Adaptive Detection Transformer for Single-Source Domain Generalized Object Detection Jianhong Han Yupei Wang Liang Chen ViT 42 0 0 29 Apr 2025
Multimodal Large Language Models for Medicine: A Comprehensive Survey Jiarui Ye Hao Tang LM&MA 89 0 0 29 Apr 2025
PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations Haowen Sun Haoran Wang Chengzhong Ma Shaolong Zhang Jiawei Ye Xingyu Chen Xuguang Lan OffRL 53 1 0 29 Apr 2025
Creating Your Editable 3D Photorealistic Avatar with Tetrahedron-constrained Gaussian Splatting Hanxi Liu Yifang Men Zhouhui Lian 3DGS 33 0 0 29 Apr 2025
Geometry-aware Temporal Aggregation Network for Monocular 3D Lane Detection Huan Zheng Wencheng Han Tianyi Yan Cheng-Zhong Xu Jianbing Shen 34 0 0 29 Apr 2025
SAM-Guided Robust Representation Learning for One-Shot 3D Medical Image Segmentation Jia Wang Yunan Mei Jiarui Liu Xin Fan 44 0 0 29 Apr 2025
XPG-RL: Reinforcement Learning with Explainable Priority Guidance for Efficiency-Boosted Mechanical Search Yiting Zhang Shichen Li Elena Shrestha 40 0 0 29 Apr 2025
YoChameleon: Personalized Vision and Language Generation Thao Nguyen Krishna Kumar Singh Jing Shi Trung H. Bui Yong Jae Lee Yuheng Li MLLM 82 0 0 29 Apr 2025
QuickGrasp: Lightweight Antipodal Grasp Planning with Point Clouds Navin Sriram Ravie Keerthi Vasan M Asokan Thondiyath Bijo Sebastian 26 0 0 28 Apr 2025
Simultaneous Pick and Place Detection by Combining SE(3) Diffusion Models with Differential Kinematics Tianyi Ko Takuya Ikeda Koichi Nishiwaki 40 0 0 28 Apr 2025
Neural network task specialization via domain constraining Roman Malashin Daniil Ilyukhin 49 0 0 28 Apr 2025
Explaining Vision GNNs: A Semantic and Visual Analysis of Graph-based Image Classification Nikolaos Chaidos Angeliki Dimitriou Nikolaos Spanos Athanasios Voulodimos Giorgos Stamou 40 1 0 28 Apr 2025
Pixels2Points: Fusing 2D and 3D Features for Facial Skin Segmentation Victoria Yue Chen Daoye Wang Stephan Garbin Jan Bednarík Sebastian Winberg Timo Bolkart Thabo Beeler 3DH 3DPC 42 0 0 28 Apr 2025
ShowMak3r: Compositional TV Show Reconstruction S. Kim Seunguk Do Jaesik Park VGen 43 0 0 28 Apr 2025
Lightweight Adapter Learning for More Generalized Remote Sensing Change Detection Dou Quan Rufan Zhou Shuang Wang Ning Huyan Dong Zhao Yunan Li L. Jiao 78 0 0 28 Apr 2025
Open-set Anomaly Segmentation in Complex Scenarios Song Xia Yi Yu Henghui Ding Wenhan Yang S. Liu Alex C. Kot Xudong Jiang DiffM 57 0 0 28 Apr 2025
SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation Yulong Guo Zilun Zhang Yongheng Shang Tiancheng Zhao Shuiguang Deng Yingchun Yang Jianwei Yin 68 0 0 28 Apr 2025
Do You Know the Way? Human-in-the-Loop Understanding for Fast Traversability Estimation in Mobile Robotics Andre Schreiber Katherine Rose Driggs-Campbell 153 0 0 28 Apr 2025
OpenFusion++: An Open-vocabulary Real-time Scene Understanding System Xiaofeng Jin Matteo Frosi Matteo Matteucci 157 0 0 27 Apr 2025
CapsFake: A Multimodal Capsule Network for Detecting Instruction-Guided Deepfakes Tuan Nguyen Naseem Khan Issa Khalil AAML 64 0 0 27 Apr 2025
Reservoir-enhanced Segment Anything Model for Subsurface Diagnosis Xiren Zhou Shikang Liu Xinyu Yan Yizhan Fan Xiangyu Wang Yu Kang Jian Cheng Huanhuan Chen 32 0 0 26 Apr 2025
RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning Haoran Geng Feishi Wang Songlin Wei Y. Li Bangjun Wang ... Hao Dong Siyuan Huang Yue Wang Jitendra Malik Pieter Abbeel 85 4 0 26 Apr 2025
TransparentGS: Fast Inverse Rendering of Transparent Objects with Gaussians Letian Huang Dongwei Ye Jialin Dan Chengzhi Tao Huiwen Liu Kun Zhou Bo Ren Y. Li Yanwen Guo Jie Guo 47 1 0 26 Apr 2025
HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding? Yusen Zhang Wenliang Zheng Aashrith Madasu Peng Shi Ryo Kamoi ... Ranran Haoran Zhang Avitej Iyer Renze Lou Wenpeng Yin Rui Zhang 68 0 0 25 Apr 2025
Opportunistic Collaborative Planning with Large Vision Model Guided Control and Joint Query-Service Optimization Jiayi Chen Shuai Wang Guoliang Li Wei Xu Guangxu Zhu Derrick Wing Kwan Ng Chengzhong Xu 62 0 0 25 Apr 2025
Federated Client-tailored Adapter for Medical Image Segmentation Guyue Hu Siyuan Song Yukun Kang Z. Yin Gangming Zhao Chenglong Li Jin Tang FedML MedIm 186 0 0 25 Apr 2025
Back to Fundamentals: Low-Level Visual Features Guided Progressive Token Pruning Yuanbing Ouyang Yizhuo Liang Qingpeng Li Xinfei Guo Yiming Luo Di Wu Hao Wang Yushan Pan ViT VLM 73 0 0 25 Apr 2025
Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization Kesen Zhao B. Zhu Qianru Sun Hanwang Zhang MLLM LRM 86 0 0 25 Apr 2025
3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models Min Wei Chaohui Yu Jingkai Zhou Fan Wang DiffM VGen 49 0 0 24 Apr 2025
Object Pose Estimation by Camera Arm Control Based on the Next Viewpoint Estimation Tomoki Mizuno Kazuya Yabashi Tsuyoshi Tasaki 35 0 0 24 Apr 2025
AUTHENTICATION: Identifying Rare Failure Modes in Autonomous Vehicle Perception Systems using Adversarially Guided Diffusion Models Mohammad Zarei Melanie A Jutras Eliana Evans Mike Tan Omid Aaramoon AAML DiffM 52 0 0 24 Apr 2025
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation Phillip Y. Lee Jihyeon Je Chanho Park Mikaela Angelina Uy Leonidas J. Guibas Minhyuk Sung LRM 46 0 0 24 Apr 2025
PICO: Reconstructing 3D People In Contact with Objects Alpár Cseke Shashank Tripathi Sai Kumar Dwivedi Arjun Lakshmipathy Agniv Chatterjee M. Black Dimitrios Tzionas 3DH 35 1 0 24 Apr 2025
Mamba-Sea: A Mamba-based Framework with Global-to-Local Sequence Augmentation for Generalizable Medical Image Segmentation Zihan Cheng Jintao Guo J. Zhang Lei Qi Luping Zhou Yinghuan Shi Yang Gao Mamba 45 0 0 24 Apr 2025
MorphoNavi: Aerial-Ground Robot Navigation with Object Oriented Mapping in Digital Twin Sausar Karaf Mikhail Martynov Oleg Sautenkov Zhanibek Darush Dzmitry Tsetserukou 53 1 0 23 Apr 2025
Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images Tristan Piater Björn Barz Alexander Freytag VLM MedIm 64 0 0 23 Apr 2025
Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light Ali Hassani Fengzhe Zhou Aditya Kane Jiannan Huang Chieh-Yun Chen ... Bing Xu Haicheng Wu Wen-mei W. Hwu Xuan Li Humphrey Shi 31 0 0 23 Apr 2025
Gaussian Splatting is an Effective Data Generator for 3D Object Detection F. G. Zanjani Davide Abati Auke Wiggers Dimitris Kalatzis Jens Petersen Hong Cai A. Habibian 3DGS 142 0 0 23 Apr 2025
RGB-D Video Object Segmentation via Enhanced Multi-store Feature Memory Boyue Xu Ruichao Hou Tongwei Ren Gangshan Wu VOS 38 1 0 23 Apr 2025
AdaViP: Aligning Multi-modal LLMs via Adaptive Vision-enhanced Preference Optimization Jinda Lu Jinghan Li Yuan Gao Junkang Wu Jiancan Wu Xuben Wang Xiangnan He 118 0 0 22 Apr 2025
Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation Zhiyuan Hu Shiyun Xiong Yifan Zhang See-Kiong Ng Anh Tuan Luu Jingyi Wang Shuicheng Yan Bryan Hooi 46 0 0 22 Apr 2025
Few-Shot Vision-Language Action-Incremental Policy Learning Mingchen Song Xiang Deng Guoqiang Zhong Qi Lv Jia Wan Yinchuan Li Jianye Hao Weili Guan 41 0 0 22 Apr 2025
Grasping Deformable Objects via Reinforcement Learning with Cross-Modal Attention to Visuo-Tactile Inputs Yonghyun Lee Sungeun Hong Min-gu Kim Gyeonghwan Kim Changjoo Nam 24 0 0 22 Apr 2025
SAGA: Semantic-Aware Gray color Augmentation for Visible-to-Thermal Domain Adaptation across Multi-View Drone and Ground-Based Vision Systems Manjunath D Aniruddh Sikdar Prajwal Gurunath Sumanth Udupa Suresh Sundaram 34 0 0 22 Apr 2025
Quantum Doubly Stochastic Transformers Jannis Born Filip Skogh Kahn Rhrissorrakrai Filippo Utro Nico Wagner Aleksandros Sobczyk 27 0 0 22 Apr 2025