v1v2 (latest)

Multimodal Machine Learning: A Survey and Taxonomy

26 May 2017

T. Baltrušaitis

Chaitanya Ahuja

Louis-Philippe Morency

ArXiv (abs)PDF HTML

Papers citing "Multimodal Machine Learning: A Survey and Taxonomy"

50 / 941 papers shown

Can multimodal representation learning by alignment preserve modality-specific information?

Romain Thoreau

Jessie Levillain

Dawa Derksen

107

22 Sep 2025

Graph Coloring for Multi-Task Learning

Santosh Patapati

263

21 Sep 2025

VisMoDAl: Visual Analytics for Evaluating and Improving Corruption Robustness of Vision-Language Models

131

18 Sep 2025

Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems

175

18 Sep 2025

Music4All A+A: A Multimodal Dataset for Music Information Retrieval Tasks

18 Sep 2025

A Scenario-Driven Cognitive Approach to Next-Generation AI Memory

130

16 Sep 2025

DyKen-Hyena: Dynamic Kernel Generation via Cross-Modal Attention for Multimodal Intent Recognition

Yifei Wang

Wenbin Wang

Yong Luo

12 Sep 2025

UOPSL: Unpaired OCT Predilection Sites Learning for Fundus Image Diagnosis Augmentation

140

10 Sep 2025

Exploring Urban Factors with Autoencoders: Relationship Between Static and Dynamic Features

07 Sep 2025

Learning to Route: Per-Sample Adaptive Routing for Multimodal Multitask Prediction

163

06 Sep 2025

Artificial intelligence for representing and characterizing quantum systems

...

175

05 Sep 2025

Balanced Multimodal Learning: An Unidirectional Dynamic Interaction Perspective

230

02 Sep 2025

A Multimodal Deep Learning Framework for Early Diagnosis of Liver Cancer via Optimized BiLSTM-AM-VMD Architecture

Cheng Cheng

Zeping Chen

Xavier Wang

198

01 Sep 2025

MVRS: The Multimodal Virtual Reality Stimuli-based Emotion Recognition Dataset

Seyed Muhammad Hossein Mousavi

Atiye Ilanloo

114

31 Aug 2025

Speech Emotion Recognition via Entropy-Aware Score Selection

101

28 Aug 2025

Developing a Multi-Modal Machine Learning Model For Predicting Performance of Automotive Hood Frames

Abhishek Indupally

Satchit Ramnath

AI4CE

28 Aug 2025

AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning

Shu Shen

Chao Chen

Tong Zhang

233

27 Aug 2025

Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning

127

25 Aug 2025

EGRA:Toward Enhanced Behavior Graphs and Representation Alignment for Multimodal Recommendation

176

22 Aug 2025

Multimodal Quantum Vision Transformer for Enzyme Commission Classification from Biochemical Representations

20 Aug 2025

Multimodal Data Storage and Retrieval for Embodied AI: A Survey

Yihao Lu

Hao Tang

140

19 Aug 2025

GazeProphet: Software-Only Gaze Prediction for VR Foveated Rendering

Farhaan Ebadulla

Chiraag Mudlapur

Gaurav BV

130

19 Aug 2025

SPANER: Shared Prompt Aligner for Multimodal Semantic Representation

Thye Shan Ng

Caren Soyeon Han

Eun-Jung Holden

135

18 Aug 2025

FedUNet: A Lightweight Additive U-Net Module for Federated Learning with Heterogeneous Models

120

18 Aug 2025

Arabic Multimodal Machine Learning: Datasets, Applications, Approaches, and Challenges

140

17 Aug 2025

UniCast: A Unified Multimodal Prompting Framework for Time Series Forecasting

117

16 Aug 2025

MUJICA: Reforming SISR Models for PBR Material Super-Resolution via Cross-Map Attention

Xin Du

Maoyuan Xu

Zhi Ying

124

13 Aug 2025

Does Multimodality Improve Recommender Systems as Expected? A Critical Analysis and Future Directions

119

07 Aug 2025

LUST: A Multi-Modal Framework with Hierarchical LLM-based Scoring for Learned Thematic Significance Tracking in Multimedia Content

Anderson de Lima Luiz

06 Aug 2025

Explainable Deep Neural Network for Multimodal ECG Signals: Intermediate vs Late Fusion

Timothy Oladunni

Ehimen Aneni

172

06 Aug 2025

^3

: Calibrating Multimodal Recommendation

Xin Zhou

Yongjie Wang

Zhiqi Shen

116

02 Aug 2025

Multimodal Late Fusion Model for Problem-Solving Strategy Classification in a Machine Learning GameEuropean Conference on Technology Enhanced Learning (EC-TEL), 2025

30 Jul 2025

Automated Detection of Antarctic Benthic Organisms in High-Resolution In Situ Imagery to Aid Biodiversity Monitoring

115

29 Jul 2025

Large Language Models for Crash Detection in Video: A Survey of Methods, Datasets, and Challenges

300

02 Jul 2025

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

155

16 Jun 2025

A Survey on World Models Grounded in Acoustic Physical Information

184

16 Jun 2025

RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer

295

13 Jun 2025

MF2Summ: Multimodal Fusion for Video Summarization with Temporal Alignment

Shuo wang

Jihao Zhang

222

12 Jun 2025

Optimizing Genetic Algorithms with Multilayer Perceptron Networks for Enhancing TinyFace Recognition

Mohammad Subhi Al-Batah

Mowafaq Salem Alzboon

Muhyeeddin Alqaraleh

CVBM

205

11 Jun 2025

Segment Any Architectural Facades (SAAF):An automatic segmentation model for building facades, walls and windows based on multimodal semantics guidance

227

09 Jun 2025

Representation Decomposition for Learning Similarity and Contrastness Across Modalities for Affective Computing

132

08 Jun 2025

CAtCh: Cognitive Assessment through Cookie ThiefInternational Conference on Digital Health (ICDH), 2025

115

07 Jun 2025

Position Prediction Self-Supervised Learning for Multimodal Satellite Imagery Semantic Segmentation

John Waithaka

Moise Busogi

SSL

168

07 Jun 2025

Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques

200

06 Jun 2025

Computational Thresholds in Multi-Modal Learning via the Spiked Matrix-Tensor Model

172

03 Jun 2025

MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping

280

02 Jun 2025

TIME: TabPFN-Integrated Multimodal Engine for Robust Tabular-Image Learning

216

01 Jun 2025

Leveraging CLIP Encoder for Multimodal Emotion RecognitionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2025

Yehun Song

Sunyoung Cho

VLM

176

01 Jun 2025

AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting

299

01 Jun 2025

A Survey of Generative Categories and Techniques in Multimodal Generative Models

404

29 May 2025