Title
A generalizable 3D framework and model for self-supervised learning in medical imaging Tony Xu Sepehr Hosseini Chris Anderson Anthony Rinaldi Rahul G. Krishnan Anne L. Martel Maged Goubran MedIm 45 3 0 20 Jan 2025
Dynamic Scene Understanding from Vision-Language Representations Shahaf Pruss Morris Alper Hadar Averbuch-Elor OCL 161 0 0 20 Jan 2025
Text-guided Synthetic Geometric Augmentation for Zero-shot 3D Understanding Kohei Torimi Ryosuke Yamada Daichi Otsuka Kensho Hara Yuki M. Asano Hirokatsu Kataoka Y. Aoki 3DV 36 0 0 20 Jan 2025
3rd Workshop on Maritime Computer Vision (MaCVi) 2025: Challenge Results Benjamin Kiefer Lojze Žust Jon Muhovič Matej Kristan J. Pers ... Ashraf Saleem Ching-Heng Cheng Yu-Fan Lin Tzu-Yu Lin Chih-Chung Hsu 43 0 0 20 Jan 2025
Transfer Learning Strategies for Pathological Foundation Models: A Systematic Evaluation in Brain Tumor Classification Ken Enda Yoshitaka Oda Zen-ichi Tanei Wang Lei Masumi Tsuda ... Shinya Tanaka Takahiro Ogawa Wang Lei Masumi Tsuda Shinya Tanaka 33 0 0 19 Jan 2025
Reducing the Sensitivity of Neural Physics Simulators to Mesh Topology via Pretraining Nathan Vaska Justin Goodwin Robin Walters Rajmonda S. Caceres AAML AI4CE 60 0 0 17 Jan 2025
Few-Shot Adaptation of Training-Free Foundation Model for 3D Medical Image Segmentation Xingxin He Yifan Hu Zhaoye Zhou Mohamed Jarraya Fang Liu VLM MedIm 42 2 0 17 Jan 2025
Continual Test-Time Adaptation for Single Image Defocus Deblurring via Causal Siamese Networks Shuang Cui Yi Li Jiangmeng Li Xiongxin Tang Bing-Huang Su Fanjiang Xu Hui Xiong 53 0 0 15 Jan 2025
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training Xingyi He He Hao Yu Sida Peng Dongli Tan Zehong Shen Hujun Bao Xiaowei Zhou 46 4 0 13 Jan 2025
Guided SAM: Label-Efficient Part Segmentation S.B. van Rooij G.J. Burghouts VLM 43 0 0 13 Jan 2025
Anonymization of Documents for Law Enforcement with Machine Learning Manuel Eberhardinger Patrick Takenaka Daniel Grießhaber J. Maucher 49 0 0 13 Jan 2025
LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models Mozhgan Nasr Azadani James Riddell Sean Sedwards Krzysztof Czarnecki MLLM VLM 44 2 0 13 Jan 2025
SAM-DA: Decoder Adapter for Efficient Medical Domain Adaptation Javier Gamazo Tejero Moritz Schmid Pablo Márquez-Neila M. Zinkernagel Sebastian Wolf Raphael Sznitman MedIm 39 0 0 12 Jan 2025
MEt3R: Measuring Multi-View Consistency in Generated Images Mohammad Asim Christopher Wewer Thomas Wimmer Bernt Schiele J. E. Lenssen EGVM 3DGS VGen 46 7 0 10 Jan 2025
BRIGHT: A globally distributed multimodal building damage assessment dataset with very-high-resolution for all-weather disaster response Hongruixuan Chen Jian Song Olivier Dietrich Clifford Broni-Bediako Weihao Xuan ... Yimin Wei J. Xia Cuiling Lan Konrad Schindler Naoto Yokoya 83 5 0 10 Jan 2025
OneLLM: One Framework to Align All Modalities with Language Jiaming Han Kaixiong Gong Yiyuan Zhang Jiaqi Wang Kaipeng Zhang D. Lin Yu Qiao Peng Gao Xiangyu Yue MLLM 104 109 0 10 Jan 2025
Multi-subject Open-set Personalization in Video Generation Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Yuwei Fang Kwot Sin Lee Ivan Skorokhodov Kfir Aberman Jun-Yan Zhu Ming Yang Sergey Tulyakov DiffM VGen 69 7 0 10 Jan 2025
EditAR: Unified Conditional Generation with Autoregressive Models Jiteng Mu Nuno Vasconcelos X. Wang DiffM 38 4 0 08 Jan 2025
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images Zixuan Huang Mark Boss Aaryaman Vasishta James M. Rehg Varun Jampani 30 6 0 08 Jan 2025
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control Yuanpeng Tu Hao Luo Xi Chen S. Ji Xiang Bai Hengshuang Zhao VGen DiffM 42 3 0 08 Jan 2025
Decoding fMRI Data into Captions using Prefix Language Modeling Vyacheslav Shen Kassymzhomart Kunanbayev Dae-Shik Kim 28 0 0 07 Jan 2025
Gaussian Masked Autoencoders Jathushan Rajasegaran Xinlei Chen Rulilong Li Christoph Feichtenhofer Jitendra Malik Shiry Ginosar 3DGS 37 1 0 06 Jan 2025
FoundPAD: Foundation Models Reloaded for Face Presentation Attack Detection Guray Ozgur Eduarda Caldeira Tahar Chettaoui Fadi Boutros Raghavendra Ramachandra Naser Damer AAML CVBM 29 0 1 06 Jan 2025
Universal Features Guided Zero-Shot Category-Level Object Pose Estimation Wentian Qu Chenyu Meng Heng Li Jian Cheng Cuixia Ma Hongan Wang Xiao Zhou Xiaoming Deng Ping Tan 33 0 0 06 Jan 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 88 11 0 06 Jan 2025
MObI: Multimodal Object Inpainting Using Diffusion Models Alexandru Buburuzan Anuj Sharma John Redford P. Dokania Romain Mueller DiffM 91 1 0 06 Jan 2025
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking Tingyang Zhang Chen Wang Zhiyang Dou Qingzhe Gao Jiahui Lei Baoquan Chen Lingjie Liu 3DV 41 0 0 06 Jan 2025
Multi-layer Radial Basis Function Networks for Out-of-distribution Detection Amol Khanna Chenyi Ling Derek Everett Edward Raff Nathan Inkawhich OODD 28 0 0 05 Jan 2025
Enhancing Contrastive Learning for Retinal Imaging via Adjusted Augmentation Scales Zijie Cheng B. Li André Altmann P. Keane Yukun Zhou MedIm 29 0 0 05 Jan 2025
FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance Haicheng Wang Zhemeng Yu Gabriele Spadaro Chen Ju Victor Quétu Enzo Tartaglione Enzo Tartaglione VLM 100 3 0 05 Jan 2025
CorrFill: Enhancing Faithfulness in Reference-based Inpainting with Correspondence Guidance in Diffusion Models Kuan-Hung Liu Cheng-Kun Yang Min-Hung Chen Yu-Lun Liu Y. Lin DiffM 28 1 0 04 Jan 2025
Keypoint Aware Masked Image Modelling Madhava Krishna Convin.AI 67 0 0 03 Jan 2025
MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension Ting Liu Zunnan Xu Yue Hu Liangtao Shi Zhiqiang Wang Quanjun Yin 57 2 0 03 Jan 2025
PatchRefiner V2: Fast and Lightweight Real-Domain High-Resolution Metric Depth Estimation Zhenyu Li Wenqing Cui S. Bhat Peter Wonka MDE 36 0 0 03 Jan 2025
RORem: Training a Robust Object Remover with Human-in-the-Loop Ruibin Li Tao Yang Song Guo L. Zhang 42 3 0 01 Jan 2025
VersaGen: Unleashing Versatile Visual Control for Text-to-Image Synthesis Zhipeng Chen Lan Yang Yonggang Qi Honggang Zhang Kaiyue Pang Ke Li Yi-Zhe Song DiffM 90 0 0 31 Dec 2024
A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine Hanguang Xiao Feizhong Zhou X. Liu Tianqi Liu Zhipeng Li Xin Liu Xiaoxuan Huang AILaw LM&MA LRM 59 17 0 31 Dec 2024
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 55 3 0 31 Dec 2024
Forensics of Transpiled Quantum Circuits Rupshali Roy Archisman Ghosh Swaroop Ghosh 56 0 0 25 Dec 2024
Personalized Large Vision-Language Models Chau Pham Hoang Phan David Doermann Yunjie Tian VLM 46 3 0 23 Dec 2024
VarAD: Lightweight High-Resolution Image Anomaly Detection via Visual Autoregressive Modeling Yunkang Cao Haiming Yao Wei Luo Weiming Shen 35 2 0 23 Dec 2024
Be More Diverse than the Most Diverse: Optimal Mixtures of Generative Models via Mixture-UCB Bandit Algorithms Parham Rezaei Farzan Farnia Cheuk Ting Li 43 0 0 23 Dec 2024
A Bias-Free Training Paradigm for More General AI-generated Image Detection Fabrizio Guillaro Giada Zingarini Ben Usman Avneesh Sud D. Cozzolino L. Verdoliva DiffM 68 4 0 23 Dec 2024
GSemSplat: Generalizable Semantic 3D Gaussian Splatting from Uncalibrated Image Pairs Xingrui Wang Cuiling Lan Hanxin Zhu Zhibo Chen Yan Lu 3DGS 91 1 0 22 Dec 2024
IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks Yaming Zhang Chenqiang Gao Fangcen Liu Junjie Guo Lan Wang Xinggan Peng Deyu Meng 102 0 0 21 Dec 2024
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment Cijo Jose Théo Moutakanni Dahyun Kang Federico Baldassarre Timothée Darcet ... Maxime Oquab Oriane Siméoni Huy V. Vo Patrick Labatut Piotr Bojanowski CLIP VLM 94 6 0 20 Dec 2024
Mapping the Mind of an Instruction-based Image Editing using SMILE Zeinab Dehghani Koorosh Aslansefat Adil Khan Adín Ramirez Rivera Franky George Muhammad Khalid DiffM 80 0 0 20 Dec 2024
Continual Learning Using a Kernel-Based Method Over Foundation Models Saleh Momeni Sahisnu Mazumder Bing-Quan Liu CLL 67 1 0 20 Dec 2024
Interactive Scene Authoring with Specialized Generative Primitives Clément Jambon Changwoon Choi Dongsu Zhang Olga Sorkine-Hornung Young Min Kim VGen 75 0 0 20 Dec 2024
Scaling 4D Representations João Carreira Dilara Gokay Michael King Chuhan Zhang Ignacio Rocco ... Viorica Patraucean Dima Damen Pauline Luc Mehdi S. M. Sajjadi Andrew Zisserman 80 3 0 19 Dec 2024