Title
Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception Ruotian Peng Haiying He Yake Wei Yandong Wen D. Hu VLM 39 0 0 09 Apr 2025
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding Pedro Hermosilla Christian Stippel Leon Sick SSL 3DPC 79 0 0 09 Apr 2025
PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering Y. Gao Zihang Lin Chuanbin Liu Min Zhou T. Ge Bo Zheng Hongtao Xie DiffM 40 0 0 09 Apr 2025
Wheat3DGS: In-field 3D Reconstruction, Instance Segmentation and Phenotyping of Wheat Heads with Gaussian Splatting Daiwei Zhang Joaquin Gajardo Tomislav Medic Isinsu Katircioglu Mike Boss Norbert Kirchgessner Achim Walter Lukas Roth 29 0 0 09 Apr 2025
ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis Yun Chang Leonor Fermoselle Duy Ta Bernadette Bucher Luca Carlone Jiuguang Wang 38 0 0 09 Apr 2025
DUKAE: DUal-level Knowledge Accumulation and Ensemble for Pre-Trained Model-Based Continual Learning Songze Li Tonghua Su Xu-Yao Zhang Qixing Xu Zhongjie Wang CLL 38 0 0 09 Apr 2025
A Comparison of Deep Learning Methods for Cell Detection in Digital Cytology Marco Acerbis Natasa Sladoje Joakim Lindblad 27 0 0 09 Apr 2025
GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes S. Back J. Lee Kangmin Kim Heeseon Rho Geonhyup Lee ... S. Lee Sangjun Noh Youngjin Lee Taeyeop Lee K. Lee 3DV 41 0 0 09 Apr 2025
RayFronts: Open-Set Semantic Ray Frontiers for Online Scene Understanding and Exploration Omar Alama A. Bhattacharya Haoyang He Seungchan Kim Yuheng Qiu Wenshan Wang Cherie Ho Nikhil Varma Keetha Sebastian A. Scherer 31 0 0 09 Apr 2025
Domain Generalization through Attenuation of Domain-Specific Information Reiji Saito Kazuhiro Hotta 33 0 0 09 Apr 2025
Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptation Xiaoxing Hu Ziyang Gong Yuhui Wang Yuru Jia Gen Luo Xue Yang 133 0 0 08 Apr 2025
On the Importance of Conditioning for Privacy-Preserving Data Augmentation Julian Lorenz K. Ludwig Valentin Haug Rainer Lienhart DiffM 38 0 0 08 Apr 2025
Transferable Mask Transformer: Cross-domain Semantic Segmentation with Region-adaptive Transferability Estimation Enming Zhang Z. Li Yanru Wu Jun Wang Yang Tan Ruizhe Zhao Guan Wang Yang Li ViT 33 0 0 08 Apr 2025
TAPNext: Tracking Any Point (TAP) as Next Token Prediction Artem Zholus Carl Doersch Yi Yang Skanda Koppula Viorica Patraucean Xu He Ignacio Rocco Mehdi S. M. Sajjadi Sarath Chandar Ross Goroshin 30 0 0 08 Apr 2025
HRMedSeg: Unlocking High-resolution Medical Image segmentation via Memory-efficient Attention Modeling Qing Xu Zhenye Lou Chenxin Li Xiangjian He Rong Qu Tesema Fiseha Berhanu Yi Wang Wenting Duan Zhen Chen MedIm 36 0 0 08 Apr 2025
KAN-SAM: Kolmogorov-Arnold Network Guided Segment Anything Model for RGB-T Salient Object Detection Xingyuan Li Ruichao Hou Tongwei Ren Gangshan Wu 22 0 0 08 Apr 2025
PromptHMR: Promptable Human Mesh Recovery Yufu Wang Yu Sun Priyanka Patel Kostas Daniilidis Michael J. Black Muhammed Kocabas 3DH 57 0 0 08 Apr 2025
S^4M: Boosting Semi-Supervised Instance Segmentation with SAM Heeji Yoon Heeseong Shin Eunbeen Hong Hyunwook Choi Hansang Cho Daun Jeong Seungryong Kim 26 0 0 07 Apr 2025
Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision Yuandong Pu Le Zhuo Kaiwen Zhu Liangbin Xie Wenlong Zhang Xiangyu Chen Peng Gao Yu Qiao Chao Dong Yihao Liu MLLM 69 1 0 07 Apr 2025
DiCoTTA: Domain-invariant Learning for Continual Test-time Adaptation Sohyun Lee N. Kim Juwon Kang Seong Joon Oh Suha Kwak 94 0 0 07 Apr 2025
TactileNet: Bridging the Accessibility Gap with AI-Generated Tactile Graphics for Individuals with Vision Impairment Adnan Khan Alireza Choubineh Mai A. Shaaban Abbas Akkasi Majid Komeili DiffM 40 0 0 07 Apr 2025
Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation Sebastian Schmidt Julius Körner Dominik Fuchsgruber Stefano Gasperini F. Tombari Stephan Günnemann 26 0 0 07 Apr 2025
CMaP-SAM: Contraction Mapping Prior for SAM-driven Few-shot Segmentation Shuai Chen Fanman Meng Haoran Wei Chenhao Wu Q. Wu Linfeng Xu Yiming Li 30 0 0 07 Apr 2025
URECA: Unique Region Caption Anything Sangbeom Lim J. Kim Heeji Yoon Jaewoo Jung Seungryong Kim 31 0 0 07 Apr 2025
Playing Non-Embedded Card-Based Games with Reinforcement Learning Tianyang Wu Lipeng Wan Yuhang Wang Qiang Wan Xuguang Lan OffRL 27 0 0 07 Apr 2025
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis Mengchao Wang Qiang Wang Fan Jiang Yaqi Fan Yunpeng Zhang Yonggang Qi Kun Zhao Mu Xu DiffM VGen 33 0 0 07 Apr 2025
DeclutterNeRF: Generative-Free 3D Scene Recovery for Occlusion Removal Wanzhou Liu Zhexiao Xiong Xinyu Li Nathan Jacobs 33 0 0 07 Apr 2025
Inverse++: Vision-Centric 3D Semantic Occupancy Prediction Assisted with 3D Object Detection Zhenxing Ming J. S. Berrio Mao Shan Stewart Worrall 3DPC 44 2 0 07 Apr 2025
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models Sai Kumar Dwivedi Dimitrije Antić Shashank Tripathi Omid Taheri Cordelia Schmid M. Black Dimitrios Tzionas 32 1 0 07 Apr 2025
Embodied Perception for Test-time Grasping Detection Adaptation with Knowledge Infusion Jin Liu Jialong Xie Leibing Xiao Chaoqun Wang Fengyu Zhou 25 0 0 07 Apr 2025
Studying Image Diffusion Features for Zero-Shot Video Object Segmentation Thanos Delatolas Vicky S. Kalogeiton Dim P. Papadopoulos DiffM VOS 48 1 0 07 Apr 2025
LEO-MINI: An Efficient Multimodal Large Language Model using Conditional Token Reduction and Mixture of Multi-Modal Experts Yimu Wang Mozhgan Nasr Azadani Sean Sedwards Krzysztof Czarnecki MLLM MoE 52 0 0 07 Apr 2025
SAM2MOT: A Novel Paradigm of Multi-Object Tracking by Segmentation Junjie Jiang Zelin Wang Manqi Zhao Yin Li Dongsheng Jiang 41 0 0 06 Apr 2025
PRISM: Probabilistic Representation for Integrated Shape Modeling and Generation Lei Cheng Mahdi Saleh Qing Cheng Lu Sang Hongli Xu Daniel Cremers F. Tombari 23 0 0 06 Apr 2025
Targetless LiDAR-Camera Calibration with Anchored 3D Gaussians Haebeom Jung Namtae Kim Jungwoo Kim Jaesik Park 3DGS 93 0 0 06 Apr 2025
The Point, the Vision and the Text: Does Point Cloud Boost Spatial Reasoning of Large Language Models? Weichen Zhang Ruiying Peng Chen Gao Jianjie Fang Xin Zeng ... Zhilin Wang Jinqiang Cui Xin Wang Xinlei Chen Yongqian Li LRM 78 0 0 06 Apr 2025
Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images Hamza Riaz Alan F. Smeaton 41 0 0 05 Apr 2025
UCS: A Universal Model for Curvilinear Structure Segmentation Dianshuo Li Li Chen Y. Cao Kai Zhu Jun Cheng 38 0 0 05 Apr 2025
DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning Xiao-Hui Li Fei Yin Cheng-Lin Liu 32 0 0 05 Apr 2025
Simultaneous Learning of Optimal Transports for Training All-to-All Flow-Based Condition Transfer Model Kotaro Ikeda Masanori Koyama Jinzhe Zhang Kohei Hayashi Kenji Fukumizu OT 145 0 0 04 Apr 2025
Finding the Reflection Point: Unpadding Images to Remove Data Augmentation Artifacts in Large Open Source Image Datasets for Machine Learning Lucas Choi Ross Greer 29 0 0 04 Apr 2025
SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement Runnan Fang Xiaobin Wang Yuan Liang Shuofei Qiao Jialong Wu ... N. Zhang Yong Jiang Pengjun Xie Fei Huang H. Chen LLMAG 71 0 0 04 Apr 2025
LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders Ilan Naiman Emanuel Ben-Baruch Oron Anschel Alon Shoshan Igor Kviatkovsky Manoj Aggarwal Gérard Medioni 34 0 0 04 Apr 2025
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments Jianhao Zheng Zihan Zhu Valentin Bieri Marc Pollefeys Songyou Peng Iro Armeni 3DGS 26 0 0 04 Apr 2025
3D Scene Understanding Through Local Random Access Sequence Modeling Wanhee Lee Klemen Kotar R. Venkatesh Jared Watrous Honglin Chen Khai Loong Aw Daniel L. K. Yamins 3DV 42 0 0 04 Apr 2025
FLAIRBrainSeg: Fine-grained brain segmentation using FLAIR MRI only Edern Le Bot Rémi Giraud Boris Mansencal T. Tourdias J. V. Manjón Pierrick Coupé 29 0 0 04 Apr 2025
Dynamic Importance in Diffusion U-Net for Enhanced Image Synthesis Xi Wang Ziqi He Yang Zhou 37 0 0 04 Apr 2025
Post-processing for Fair Regression via Explainable SVD Zhiqun Zuo Ding Zhu Mohammad Mahdi Khalili 160 0 0 04 Apr 2025
X-Capture: An Open-Source Portable Device for Multi-Sensory Learning Samuel Clarke Suzannah Wistreich Yanjie Ze Jiajun Wu 41 0 0 03 Apr 2025
A Framework for Situating Innovations, Opportunities, and Challenges in Advancing Vertical Systems with Large AI Models Gaurav Verma Jiawei Zhou Mohit Chandra Srijan Kumar M. D. Choudhury 53 0 0 03 Apr 2025