v1v2 (latest)

Multimodal Token Fusion for Vision Transformers

Computer Vision and Pattern Recognition (CVPR), 2022

19 April 2022

ArXiv (abs)PDF HTML Github (180★)

Papers citing "Multimodal Token Fusion for Vision Transformers"

50 / 105 papers shown

GraphFusion3D: Dynamic Graph Attention Convolution with Adaptive Cross-Modal Transformer for 3D Object Detection

Md Sohag Mia

Md Nahid Hasan

Tawhid Ahmed

Muhammad Abdullah Adnan

3DPC ViT

276

02 Dec 2025

Transformer-Driven Triple Fusion Framework for Enhanced Multimodal Author Intent Classification in Low-Resource Bangla

223

28 Nov 2025

DiffPixelFormer: Differential Pixel-Aware Transformer for RGB-D Indoor Scene Segmentation

157

17 Nov 2025

From Classical to Hybrid: A Practical Framework for Quantum-Enhanced Learning

256

11 Nov 2025

MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains

199

09 Nov 2025

Robust Multimodal Semantic Segmentation with Balanced Modality Contributions

155

29 Sep 2025

UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation

198

19 Sep 2025

OmniSegmentor: A Flexible Multi-Modal Learning Framework for Semantic Segmentation

151

18 Sep 2025

MMMS: Multi-Modal Multi-Surface Interactive Segmentation

156

16 Sep 2025

Multimodal SAM-adapter for Semantic SegmentationIEEE Access (IEEE Access), 2025

Iacopo Curti

Pierluigi Zama Ramirez

Alioscia Petrelli

Luigi Di Stefano

179

12 Sep 2025

Adaptive Point-Prompt Tuning: Fine-Tuning Heterogeneous Foundation Models for 3D Point Cloud Analysis

211

30 Aug 2025

HiddenObject: Modality-Agnostic Fusion for Multimodal Hidden Object Detection

279

28 Aug 2025

Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning

127

23 Aug 2025

MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning

324

13 Aug 2025

Pre-trained Transformer-models using chronic invasive electrophysiology for symptom decoding without patient-individual training

...

163

13 Aug 2025

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

164

03 Aug 2025

Can3Tok: Canonical 3D Tokenization and Latent Modeling of Scene-Level 3D Gaussians

253

02 Aug 2025

AlignFreeNet: Is Cross-Modal Pre-Alignment Necessary? An End-to-End Alignment-Free Lightweight Network for Visible-Infrared Object Detection

321

27 Jul 2025

RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer

375

13 Jun 2025

BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation

264

04 Jun 2025

EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation

246

20 May 2025

A Multi-modal Fusion Network for Terrain Perception Based on Illumination Aware

222

16 May 2025

Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization

258

10 May 2025

Position: Foundation Models Need Digital Twin Representations

Yiqing Shen

Hao Ding

Lalithkumar Seenivasan

Tianmin Shu

Mathias Unberath

AI4CE

458

01 May 2025

HDBFormer: Efficient RGB-D Semantic Segmentation with A Heterogeneous Dual-Branch FrameworkIEEE Signal Processing Letters (IEEE SPL), 2025

594

18 Apr 2025

DFormerv2: Geometry Self-Attention for RGBD Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2025

410

07 Apr 2025

Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion

485

07 Apr 2025

Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders

320

25 Mar 2025

Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness

608

24 Mar 2025

PDDM: Pseudo Depth Diffusion Model for RGB-PD Semantic Segmentation Based in Complex Indoor ScenesAAAI Conference on Artificial Intelligence (AAAI), 2025

357

24 Mar 2025

Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance

403

04 Mar 2025

Deep-JGAC: End-to-End Deep Joint Geometry and Attribute Compression for Dense Colored Point Clouds

322

25 Feb 2025

MVIP -- A Dataset and Methods for Application Oriented Multi-View and Multi-Modal Industrial Part Recognition

Paul Koch

Marian Schluter

Jörg Krüger

334

24 Feb 2025

Learning Motion and Temporal Cues for Unsupervised Video Object SegmentationIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

524

14 Jan 2025

MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection

379

22 Dec 2024

AlzheimerRAG: Multimodal Retrieval Augmented Generation for Clinical Use Cases using PubMed articlesMachine Learning and Knowledge Extraction (MLKE), 2024

A. Lahiri

Qinmin Vivian Hu

417

21 Dec 2024

Part-Whole Relational Fusion Towards Multi-Modal Scene UnderstandingInternational Journal of Computer Vision (IJCV), 2024

243

19 Oct 2024

Order-aware Interactive SegmentationInternational Conference on Learning Representations (ICLR), 2024

Qin Liu

1.1K

16 Oct 2024

MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection

457

03 Oct 2024

AUCSeg: AUC-oriented Pixel-level Long-tail Semantic SegmentationNeural Information Processing Systems (NeurIPS), 2024

Qingming Huang

443

30 Sep 2024

Unsupervised Hyperspectral and Multispectral Image Blind Fusion Based on Deep Tucker Decomposition Network with Spatial-Spectral Manifold LearningIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

217

15 Sep 2024

MICDrop: Masking Image and Depth Features via Complementary Dropout for Domain-Adaptive Semantic SegmentationEuropean Conference on Computer Vision (ECCV), 2024

Tobias Fischer

Marc Pollefeys

Daniel Cremers

Luc Van Gool

MDE

339

29 Aug 2024

FusionSAM: Visual Multi-Modal Learning with Segment AnythingKnowledge Discovery and Data Mining (KDD), 2024

373

26 Aug 2024

Depth-guided Texture Diffusion for Image Semantic Segmentation

Qixiang Ye

222

17 Aug 2024

StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

429

02 Aug 2024

Rethinking RGB-D Fusion for Semantic Segmentation in Surgical Datasets

Muhammad Abdullah Jamal

Omid Mohareri

222

29 Jul 2024

Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers

441

18 Jul 2024

Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities

Xueye Zheng

Yuanhuiyi Lyu

Lin Wang

VLM

341

16 Jul 2024

Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation

Xueye Zheng

Yuanhuiyi Lyu

Jiazhou Zhou

Lin Wang

377

16 Jul 2024

Movie Recommendation with Poster Attention via Multi-modal Transformer Feature Fusion

162

12 Jul 2024