AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One

10 December 2023

Papers citing "AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One"

39 / 39 papers shown

Title
Looking Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models Aarti Ghatkesar Uddeshya Upadhyay Ganesh Venkatesh VLM 31 0 0 08 May 2025
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception Junjie Wang Bin Chen Yulin Li Bin Kang Y. Chen Zhuotao Tian VLM 36 0 0 07 May 2025
Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation Volodymyr Havrylov Haiwen Huang Dan Zhang Andreas Geiger 37 0 0 04 May 2025
Exploring Modality Guidance to Enhance VFM-based Feature Fusion for UDA in 3D Semantic Segmentation Johannes Spoecklberger W. Lin Pedro Hermosilla Sivan Doveh Horst Possegger M. Jehanzeb Mirza 14 0 0 19 Apr 2025
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models Haiwen Huang Anpei Chen Volodymyr Havrylov Andreas Geiger Dan Zhang 22 1 0 18 Apr 2025
Perception Encoder: The best visual embeddings are not at the output of the network Daniel Bolya Po-Yao (Bernie) Huang Peize Sun Jang Hyun Cho Andrea Madotto ... Shiyu Dong Nikhila Ravi Daniel Li Piotr Dollár Christoph Feichtenhofer ObjD VOS 103 0 0 17 Apr 2025
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding Pedro Hermosilla Christian Stippel Leon Sick SSL 3DPC 74 0 0 09 Apr 2025
RayFronts: Open-Set Semantic Ray Frontiers for Online Scene Understanding and Exploration Omar Alama A. Bhattacharya Haoyang He Seungchan Kim Yuheng Qiu Wenshan Wang Cherie Ho Nikhil Varma Keetha Sebastian A. Scherer 26 0 0 09 Apr 2025
Agglomerating Large Vision Encoders via Distillation for VFSS Segmentation Chengxi Zeng Yuxuan Jiang Fan Zhang A. Gambaruto T. Burghardt MedIm 40 0 0 03 Apr 2025
Scaling Vision Pre-Training to 4K Resolution Baifeng Shi Boyi Li Han Cai Y. Lu Sifei Liu ... Jan Kautz Song Han Trevor Darrell Pavlo Molchanov Hongxu Yin CLIP 49 0 0 25 Mar 2025
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding Jinlong Li Cristiano Saltori Fabio Poiesi N. Sebe 69 0 0 20 Mar 2025
RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment Chao Wang Giulio Franzese A. Finamore Pietro Michiardi 62 0 0 18 Mar 2025
TwinTURBO: Semi-Supervised Fine-Tuning of Foundation Models via Mutual Information Decompositions for Downstream Task and Latent Spaces Guillaume Quétant Pavlo Molchanov S. Voloshynovskiy 43 0 0 10 Mar 2025
CNSv2: Probabilistic Correspondence Encoded Neural Image Servo Anzhe Chen Hongxiang Yu Shuxin Li Yuxi Chen Zhongxiang Zhou Wentao Sun R. Xiong Y. Wang 32 0 0 28 Feb 2025
Tell me why: Visual foundation models as self-explainable classifiers Hugues Turbé Mina Bjelogrlic G. Mengaldo Christian Lovis 61 0 0 26 Feb 2025
FeatSharp: Your Vision Model Features, Sharper Mike Ranzinger Greg Heinrich Pavlo Molchanov Jan Kautz Bryan Catanzaro Andrew Tao VLM CLIP 50 0 0 22 Feb 2025
Adaptive Neural Networks for Intelligent Data-Driven Development Youssef Shoeb Azarm Nowzad Hanno Gottschalk 56 2 0 14 Feb 2025
$\Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents$ \Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents Ilia Karmanov A. Deshmukh Lukas Voegtle Philipp Fischer Kateryna Chumachenko ... Jarno Seppänen Jupinder Parmar Joseph Jennings Andrew Tao Karan Sapra 68 0 0 06 Feb 2025
Feat2GS: Probing Visual Foundation Models with Gaussian Splatting Yue Chen Xingyu Chen Anpei Chen Gerard Pons-Moll Yuliang Xiu 3DGS 83 3 0 12 Dec 2024
D-Cube: Exploiting Hyper-Features of Diffusion Model for Robust Medical Classification Minhee Jang Juheon Son Thanaporn Viriyasaranon Junho Kim Jang-Hwan Choi MedIm 23 0 0 17 Nov 2024
Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning Yuxiang Lu Shengcao Cao Yu-xiong Wang 43 1 0 18 Oct 2024
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration Yiwei Guo Shaobin Zhuang Kunchang Li Yu Qiao Yali Wang VLM CLIP 21 0 0 16 Oct 2024
REHRSeg: Unleashing the Power of Self-Supervised Super-Resolution for Resource-Efficient 3D MRI Segmentation Zhiyun Song Y. Zhao Xiaomin Li Manman Fei Xiangyu Zhao ... Chung-Hsing Yeh Qian Wang Guoyan Zheng Songtao Ai Lichi Zhang 22 1 0 14 Oct 2024
SPA: 3D Spatial-Awareness Enables Effective Embodied Representation Haoyi Zhu Honghui Yang Yating Wang Jiange Yang Limin Wang Tong He 3DH 43 5 0 10 Oct 2024
Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers Andrew F. Luo Jacob Yeung Rushikesh Zawar Shaurya Dewan Margaret M. Henderson Leila Wehbe Michael J. Tarr 21 3 0 07 Oct 2024
Semi-Supervised Fine-Tuning of Vision Foundation Models with Content-Style Decomposition M. Drozdova Vitaliy Kinakh Yury Belousov E. Lastufka Slava Voloshynovskiy 22 0 0 02 Oct 2024
PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation Mike Ranzinger Jon Barker Greg Heinrich Pavlo Molchanov Bryan Catanzaro Andrew Tao 25 4 0 02 Oct 2024
Revisit Anything: Visual Place Recognition via Image Segment Retrieval Kartik Garg Sai Shubodh Puligilla Shishir Kolathaya Madhava Krishna Sourav Garg 34 3 0 26 Sep 2024
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution Zuyan Liu Yuhao Dong Ziwei Liu Winston Hu Jiwen Lu Yongming Rao ObjD 63 54 0 19 Sep 2024
UNIT: Unifying Image and Text Recognition in One Vision Encoder Yi Zhu Yanpeng Zhou Chunwei Wang Yang Cao Jianhua Han Lu Hou Hang Xu ViT VLM 27 4 0 06 Sep 2024
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders Min Shi Fuxiao Liu Shihao Wang Shijia Liao Subhashree Radhakrishnan ... Andrew Tao Andrew Tao Zhiding Yu Guilin Liu Guilin Liu MLLM 18 53 0 28 Aug 2024
Theia: Distilling Diverse Vision Foundation Models for Robot Learning Jinghuan Shang Karl Schmeckpeper Brandon B. May M. Minniti Tarik Kelestemur David Watkins Laura Herlant VLM 32 23 0 29 Jul 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 135 895 0 21 Dec 2023
Stabilizing Transformer Training by Preventing Attention Entropy Collapse Shuangfei Zhai Tatiana Likhomanenko Etai Littwin Dan Busbridge Jason Ramapuram Yizhe Zhang Jiatao Gu J. Susskind AAML 38 64 0 11 Mar 2023
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 198 1,089 0 20 Sep 2022
Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation Yixuan Wei Han Hu Zhenda Xie Zheng-Wei Zhang Yue Cao Jianmin Bao Dong Chen B. Guo CLIP 78 123 0 27 May 2022
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
High-Performance Large-Scale Image Recognition Without Normalization Andrew Brock Soham De Samuel L. Smith Karen Simonyan VLM 220 510 0 11 Feb 2021
Knowledge Distillation by On-the-Fly Native Ensemble Xu Lan Xiatian Zhu S. Gong 187 472 0 12 Jun 2018