v1v2 (latest)

Multimodal Machine Learning: A Survey and Taxonomy

26 May 2017

T. Baltrušaitis

Chaitanya Ahuja

Louis-Philippe Morency

ArXiv (abs)PDF HTML

Papers citing "Multimodal Machine Learning: A Survey and Taxonomy"

50 / 941 papers shown

OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature

275

28 May 2025

SemIRNet: A Semantic Irony Recognition Network for Multimodal Sarcasm Detection

242

28 May 2025

Visual Cues Enhance Predictive Turn-Taking for Two-Party Human InteractionAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Sam O'Connor Russell

Naomi Harte

170

27 May 2025

I2MoE: Interpretable Multimodal Interaction-aware Mixture-of-Experts

144

25 May 2025

Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content DetectionIEEE Transactions on Artificial Intelligence (IEEE TAI), 2025

440

25 May 2025

PAEFF: Precise Alignment and Enhanced Gated Feature Fusion for Face-Voice Association

Abdul Hannan

Muhammad Arslan Manzoor

Shah Nawaz

Muhammad Irzam Liaqat

Markus Schedl

Mubashir Noman

CVBM

402

22 May 2025

Enhancing LLMs for Time Series Forecasting via Structure-Guided Cross-Modal Alignment

203

19 May 2025

NeuroGen: Neural Network Parameter Generation via Large Language Models

Jiaqi Wang

Yusen Zhang

Xi Li

413

18 May 2025

A Survey on Side Information-driven Session-based Recommendation: From a Data-centric PerspectiveIEEE Transactions on Knowledge and Data Engineering (TKDE), 2025

256

18 May 2025

Multi-modal contrastive learning adapts to intrinsic dimensions of shared latent variables

309

18 May 2025

ExpertSteer: Intervening in LLMs through Expert Knowledge

491

18 May 2025

Understanding the Capabilities of Molecular Graph Neural Networks in Materials Science Through Multimodal Learning and Physical Context Encoding

262

17 May 2025

Predicting Student Dropout Risk With A Dual-Modal Abrupt Behavioral Changes Approach

141

16 May 2025

Unified Sparse-Matrix Representations for Diverse Neural Architectures

Yuzhou Zhu

172

11 May 2025

Semantic-Space-Intervened Diffusive Alignment for Visual ClassificationInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

358

09 May 2025

Multimodal Emotion Coupling via Speech-to-Facial and Bodily Gestures in Dyadic Interaction

Von Ralph Dane Marquez Herbuela

Yukie Nagai

CVBM

08 May 2025

Learning Item Representations Directly from Multimodal Features for Effective Recommendation

240

08 May 2025

The Multimodal Paradox: How Added and Missing Modalities Shape Bias and Performance in Multimodal AI

Kishore Sampath

Pratheesh

Ayaazuddin Mohammad

Resmi Ramachandranpillai

141

05 May 2025

Synergy-CLIP: Extending CLIP with Multi-modal Integration for Robust Representation LearningIEEE Access (IEEE Access), 2025

448

30 Apr 2025

X-Fusion: Introducing New Modality to Frozen Large Language Models

Sicheng Mo

Thao Nguyen

Xun Huang

Siddharth Srinivasan Iyer

...

373

29 Apr 2025

A Survey on Multimodal Music Emotion Recognition

Rashini Liyanarachchi

Aditya Joshi

Erik Meijering

216

26 Apr 2025

Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings

305

25 Apr 2025

CLIP-IT: CLIP-based Pairing for Histology Images Classification

348

22 Apr 2025

Learning Joint ID-Textual Representation for ID-Preserving Image Synthesis

372

19 Apr 2025

Multi-Modal Data Fusion for Moisture Content Prediction in Apple DryingManufacturing Letters (Manuf. Lett.), 2025

Shichen Li

Chenhui Shao

137

10 Apr 2025

Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical ImagingInternational Journal of Machine Learning and Cybernetics (IJMLC), 2025

215

09 Apr 2025

Task-based Loss Functions in Computer Vision: A Comprehensive Review

392

05 Apr 2025

Interpretable Multimodal Learning for Tumor Protein-Metal Binding: Progress, Challenges, and Perspectives

Xiaokun Liu

Sayedmohammadreza Rastegari

...

280

04 Apr 2025

COST: Contrastive One-Stage Transformer for Vision-Language Small Object TrackingInformation Fusion (Inf. Fusion), 2025

284

02 Apr 2025

TransforMerger: Transformer-based Voice-Gesture Fusion for Robust Human-Robot Communication

Petr Vanc

Karla Stepanova

151

02 Apr 2025

SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question AnsweringInternational Conference on Intelligent Computing (ICIC), 2025

Bingxin Li

210

01 Apr 2025

Multimodal Machine Learning for Real Estate Appraisal: A Comprehensive SurveyPacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2025

173

28 Mar 2025

Towards Fully Automated Decision-Making Systems for Greenhouse Control: Challenges and Opportunities

235

27 Mar 2025

3D Convolutional Neural Networks for Improved Detection of Intracranial bleeding in CT Imaging

...

Kishore Prasath Venkatesh

187

26 Mar 2025

Membership Inference Attacks on Large-Scale Models: A Survey

Hengyu Wu

Yang Cao

MIALM

855

25 Mar 2025

Enhanced Smart Contract Reputability Analysis using Multimodal Data Fusion on Ethereum

Cyrus Malik

Josef Bajada

Joshua Ellul

300

21 Mar 2025

NdLinear: Preserving Multi-Dimensional Structure for Parameter-Efficient Neural Networks

427

21 Mar 2025

Unifying EEG and Speech for Emotion Recognition: A Two-Step Joint Learning Framework for Handling Missing EEG Data During Inference

Upasana Tiwari

Rupayan Chakraborty

Sunil Kumar Kopparapu

109

20 Mar 2025

Video-VoT-R1: An efficient video inference model integrating image packing and AoE architecture

255

20 Mar 2025

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Matthew Massey

Abdullah-Al-Zubaer Imran

226

19 Mar 2025

Continual Multimodal Contrastive Learning

703

19 Mar 2025

Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning

364

17 Mar 2025

A Multimodal Fusion Model Leveraging MLP Mixer and Handcrafted Features-based Deep Learning Networks for Facial Palsy DetectionPacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2025

255

13 Mar 2025

Aligning Instance-Semantic Sparse Representation towards Unsupervised Object Segmentation and Shape Abstraction with Repeatable PrimitivesIEEE Transactions on Visualization and Computer Graphics (TVCG), 2025

193

10 Mar 2025

Bimodal Connection Attention Fusion for Speech Emotion Recognition

375

08 Mar 2025

STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal ClassificationComputer Vision and Pattern Recognition (CVPR), 2025

394

08 Mar 2025

A kinetic-based regularization method for data science applications

361

06 Mar 2025

Rebalanced Multimodal Learning with Data-aware Unimodal Sampling

221

05 Mar 2025

Reliable Multimodal Learning Via Multi-Level Adaptive DeConfusion

Tianze Zhang

Shu Shen

Chao Chen

373

27 Feb 2025

R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts

469

27 Feb 2025