Title
Few-Shot Vision-Language Action-Incremental Policy Learning Mingchen Song Xiang Deng Guoqiang Zhong Qi Lv Jia Wan Yinchuan Li Jianye Hao Weili Guan 41 0 0 22 Apr 2025
$$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization$ $π_{0.5}$ : a Vision-Language-Action Model with Open-World Generalization Physical Intelligence Kevin Black Noah Brown James Darpinian Karan Dhabalia ... Homer Walke Anna Walling Haohuan Wang Lili Yu Ury Zhilinsky LM&Ro VLM 39 12 0 22 Apr 2025
Emergence and Evolution of Interpretable Concepts in Diffusion Models Berk Tinaz Zalan Fabian Mahdi Soltanolkotabi DiffM 23 0 0 21 Apr 2025
Landmark-Free Preoperative-to-Intraoperative Registration in Laparoscopic Liver Resection Jun Zhou Bingchen Gao Kai Wang Jialun Pei Pheng-Ann Heng Jing Qin MedIm 34 0 0 21 Apr 2025
DSPO: Direct Semantic Preference Optimization for Real-World Image Super-Resolution Miaomiao Cai Simiao Li Wei Li X. Y. Huang Hanting Chen Jie Hu Yunhe Wang 27 0 0 21 Apr 2025
Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation Yunpu Zhao Rui Zhang Junbin Xiao Ruibo Hou Jiaming Guo Zihao Zhang Yifan Hao Yunji Chen 35 0 0 21 Apr 2025
Insert Anything: Image Insertion via In-Context Editing in DiT Wensong Song Hong Jiang Zongxing Yang Ruijie Quan Yi Yang DiffM 45 0 0 21 Apr 2025
Context Aware Grounded Teacher for Source Free Object Detection Tajamul Ashraf Rajes Manna Partha Sarathi Purkayastha Tavaheed Tariq Janibul Bashir 25 0 0 21 Apr 2025
Generative Semantic Communications: Principles and Practices Xiaojun Yuan Haoming Ma Yinuo Huang Zhoufan Hua Yong Zuo Z. Ding AI4CE 25 0 0 21 Apr 2025
DRAWER: Digital Reconstruction and Articulation With Environment Realism Hongchi Xia Entong Su Marius Memmel Arhan Jain Raymond Yu Numfor Mbiziwo-Tiapo Ali Farhadi Abhishek Gupta Shenlong Wang Wei-Chiu Ma VGen 30 1 0 21 Apr 2025
Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation Guoyi Zhang Siyang Chen Guangsheng Xu Han Wang Xiaohu Zhang 36 0 0 20 Apr 2025
LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation Jiachen Li Qing Xie Xiaohan Yu Hongyun Wang Jinyu Xu Yongjian Liu ObjD 78 0 0 20 Apr 2025
NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation Junyuan Fang Zihan Wang Yuhang Zhang Shuzhe Wang Iaroslav Melekhov Arno Solin VLM 49 0 0 20 Apr 2025
EmoSEM: Segment and Explain Emotion Stimuli in Visual Art Jing Zhang Dan Guo Zhangbin Li Meng Wang 36 0 0 20 Apr 2025
IXGS-Intraoperative 3D Reconstruction from Sparse, Arbitrarily Posed Real X-rays Sascha Jecklin Aidana Massalimova Ruyi Zha Lilian Calvet C. Laux Mazda Farshad Philipp Fürnstahl 24 0 0 20 Apr 2025
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D Sergio Arnaud Paul Mcvay Ada Martin Arjun Majumdar Krishna Murthy Jatavallabhula ... Nicolas Ballas Mido Assran Oleksandr Maksymets Aravind Rajeswaran Franziska Meier 3DPC 46 0 0 19 Apr 2025
Exploring Generalizable Pre-training for Real-world Change Detection via Geometric Estimation Yitao Zhao Sen Lei Nanqing Liu Heng-Chao Li Turgay Celik Qing Zhu 29 0 0 19 Apr 2025
Exploring Modality Guidance to Enhance VFM-based Feature Fusion for UDA in 3D Semantic Segmentation Johannes Spoecklberger W. Lin Pedro Hermosilla Sivan Doveh Horst Possegger M. Jehanzeb Mirza 24 0 0 19 Apr 2025
SatelliteCalculator: A Multi-Task Vision Foundation Model for Quantitative Remote Sensing Inversion Zhenyu Yu Mohd Yamani Idna Idris Pei Wang 26 0 0 18 Apr 2025
Context-Awareness and Interpretability of Rare Occurrences for Discovery and Formalization of Critical Failure Modes Sridevi Polavaram Xin Zhou Meenu Ravi Mohammad Zarei Anmol Srivastava 19 0 0 18 Apr 2025
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models Haiwen Huang Anpei Chen Volodymyr Havrylov Andreas Geiger Dan Zhang 39 1 0 18 Apr 2025
Point-Driven Interactive Text and Image Layer Editing Using Diffusion Models Zhenyu Yu Mohd Yamani Idna Idris Pei Wang Yuelong Xia DiffM 26 0 0 18 Apr 2025
Zero-Shot Industrial Anomaly Segmentation with Image-Aware Prompt Generation SoYoung Park Hyewon Lee M. Choi Seunghoon Han Jong-Ryul Lee Sungsu Lim Tae-Ho Kim VLM 55 0 0 18 Apr 2025
HSACNet: Hierarchical Scale-Aware Consistency Regularized Semi-Supervised Change Detection Qiáo Xu Pengfei Wang Yanjun Li Tianwen Qian Xiaoling Wang 22 0 0 18 Apr 2025
LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals Shanshuai Yuan Julong Wei Muer Tie Xiangyun Ren Zhongxue Gan Wenchao Ding 36 0 0 18 Apr 2025
GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning Liangyu Xu Yingxiu Zhao J. Wang Yingyao Wang Bu Pi ... Jihao Gu X. Li Xiaoyong Zhu Jun Song Jian Xu LRM 162 1 0 17 Apr 2025
ForgetMe: Evaluating Selective Forgetting in Generative Models Zhenyu Yu Mohd Yamani Inda Idris Pei Wang DiffM MU 37 0 0 17 Apr 2025
SAM-Based Building Change Detection with Distribution-Aware Fourier Adaptation and Edge-Constrained Warping Yun-Cheng Li Sen Lei Yi Zhao Heng-Chao Li Jun Li Antonio J. Plaza 47 0 0 17 Apr 2025
Digital Twin Generation from Visual Data: A Survey Andrew Melnik Benjamin Alt Giang Hoang Nguyen Artur Wilkowski Maciej Stefańczyk Qirui Wu Sinan Harms Helge Rhodin Manolis Savva Michael Beetz 3DGS VGen 51 0 0 17 Apr 2025
Stronger, Steadier & Superior: Geometric Consistency in Depth VFM Forges Domain Generalized Semantic Segmentation Siyu Chen Ting Han Changshe Zhang Xin Luo Meiliu Wu Guorong Cai Jinhe Su MDE 39 0 0 17 Apr 2025
Perception Encoder: The best visual embeddings are not at the output of the network Daniel Bolya Po-Yao (Bernie) Huang Peize Sun Jang Hyun Cho Andrea Madotto ... Shiyu Dong Nikhila Ravi Daniel Li Piotr Dollár Christoph Feichtenhofer ObjD VOS 103 1 0 17 Apr 2025
Post-Hurricane Debris Segmentation Using Fine-Tuned Foundational Vision Models Kooshan Amini Yuhao Liu Jamie Ellen Padgett Guha Balakrishnan Ashok Veeraraghavan 33 0 0 17 Apr 2025
HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation Wenqi Dong Bangbang Yang Zesong Yang Yuan Li Tao Hu Hujun Bao Yuewen Ma Zhaopeng Cui 63 0 0 17 Apr 2025
Weak Cube R-CNN: Weakly Supervised 3D Detection using only 2D Bounding Boxes Andreas Lau Hansen Lukas Wanzeck Dim P. Papadopoulos 31 0 0 17 Apr 2025
Mask Image Watermarking Runyi Hu Jie Zhang Shiqian Zhao Nils Lukas Jiwei Li Qing-Wu Guo Han Qiu Lei Bai 34 0 0 17 Apr 2025
CM3AE: A Unified RGB Frame and Event-Voxel/-Frame Pre-training Framework Wentao Wu Xinyu Wang Chenglong Li Bo Jiang Jin Tang Bin Luo Qi Liu 34 0 0 17 Apr 2025
Privacy-Preserving Operating Room Workflow Analysis using Digital Twins Alejandra Perez Han-shen Zhang Yu-Chun Ku Lalithkumar Seenivasan Roger Soberanis Jose L. Porras Richard Day Jeff Jopling Peter Najjar Mathias Unberath 34 0 0 17 Apr 2025
Putting the Segment Anything Model to the Test with 3D Knee MRI - A Comparison with State-of-the-Art Performance Oliver Mills Philip G. Conaghan Nishant Ravikumar Samuel D. Relton MedIm 28 0 0 17 Apr 2025
Representation Learning for Tabular Data: A Comprehensive Survey Jun-Peng Jiang Si-Yang Liu Hao-Run Cai Qile Zhou Han-Jia Ye LMTD 46 0 0 17 Apr 2025
EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery Wei Zhang Miaoxin Cai Yaqian Ning T. Zhang Yin Zhuang He Chen Jun Li Xuerui Mao 36 0 0 17 Apr 2025
Contour Field based Elliptical Shape Prior for the Segment Anything Model Xinyu Zhao Jun Liu Faqiang Wang Li-min Cui Yuping Duan MedIm 37 0 0 17 Apr 2025
CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting Wei Sun Yanzhao Zhou Jianbin Jiao Yuan Li 3DGS 41 0 0 16 Apr 2025
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency Mengshi Qi Pengfei Zhu Xianrui Li Xiaoyang Bi Lu Qi Huadong Ma Ming Yang VOS VLM 51 0 0 16 Apr 2025
A Complex-valued SAR Foundation Model Based on Physically Inspired Representation Learning M. D. Wang Hanbo Bi Yingchao Feng Linlin Xin Shuo Gong Tianqi Wang Zhiyuan Yan Peijin Wang Wenhui Diao Xian Sun 36 0 0 16 Apr 2025
GrabS: Generative Embodied Agent for 3D Object Segmentation without Scene Supervision Zihui Zhang Yafei Yang Hongtao Wen Bo Yang 3DPC 40 0 0 16 Apr 2025
EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos J. Xu Y. Huang Baoqi Pei Junlin Hou Qingqiu Li Guo Chen Y. Zhang Rui Feng Weidi Xie DiffM 51 1 0 16 Apr 2025
Boosting Multi-View Stereo with Depth Foundation Model in the Absence of Real-World Labels Jie Zhu Bo Peng Zhe Zhang Bingzheng Liu Jianjun Lei 33 0 0 16 Apr 2025
Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach Lvpan Cai Haowei Wang Jiayi Ji YanShu ZhouMen Yiwei Ma Xiaoshuai Sun Liujuan Cao Rongrong Ji ViT 39 0 0 16 Apr 2025
Towards Learning to Complete Anything in Lidar Ayca Takmaz Cristiano Saltori Neehar Peri Tim Meinhardt Riccardo de Lutio Laura Leal-Taixé Aljosa Osep 3DV VLM 46 0 0 16 Apr 2025
Real-World Depth Recovery via Structure Uncertainty Modeling and Inaccurate GT Depth Fitting Delong Suzhang Meng Yang 32 0 0 16 Apr 2025