v1v2 (latest)

Multimodal Machine Learning: A Survey and Taxonomy

26 May 2017

T. Baltrušaitis

Chaitanya Ahuja

Louis-Philippe Morency

ArXiv (abs)PDF HTML

Papers citing "Multimodal Machine Learning: A Survey and Taxonomy"

50 / 941 papers shown

Multimodal Generalized Category Discovery

Xingjian Li

Min Xu

270

18 Sep 2024

PixelBytes: Catching Unified Representation for Multimodal Generation

Fabien Furfaro

126

16 Sep 2024

One missing piece in Vision and Language: A Survey on Comics Understanding

Emanuele Vivoli

335

14 Sep 2024

Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better

Tao Zhang

233

12 Sep 2024

Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective

Erik Cambria

Hasti Seifi

368

11 Sep 2024

What to align in multimodal contrastive learning?International Conference on Learning Representations (ICLR), 2024

341

11 Sep 2024

PixelBytes: Catching Unified Embedding for Multimodal Generation

Fabien Furfaro

03 Sep 2024

Subgroup Analysis via Model-based Rule ForestIEEE International Conference on Information Reuse and Integration (IRI), 2024

Chantung Ku

111

27 Aug 2024

X-Reflect: Cross-Reflection Prompting for Multimodal Recommendation

136

27 Aug 2024

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive SurveyInformation Fusion (Inf. Fusion), 2024

Ling Huang

Mengling Feng

288

23 Aug 2024

MultiMed: Massively Multimodal and Multitask Medical Understanding

Shentong Mo

Paul Pu Liang

LM&MA

245

22 Aug 2024

Harnessing Multimodal Large Language Models for Multimodal Sequential RecommendationAAAI Conference on Artificial Intelligence (AAAI), 2024

Hui Xiong

433

19 Aug 2024

A Survey on Integrated Sensing, Communication, and ComputationIEEE Communications Surveys and Tutorials (COMST), 2024

236

122

15 Aug 2024

End-to-end Semantic-centric Video-based Multimodal Affective Computing

290

14 Aug 2024

EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition

335

10 Aug 2024

A Systematic Review of Intermediate Fusion in Multimodal Deep Learning for Biomedical ApplicationsImage and Vision Computing (IVC), 2024

188

02 Aug 2024

HyperMM : Robust Multimodal Learning with Varying-sized Inputs

199

30 Jul 2024

Appformer: A Novel Framework for Mobile App Usage Prediction Leveraging Progressive Multi-Modal Data Fusion and Feature ExtractionExpert systems with applications (ESWA), 2024

224

28 Jul 2024

Automated Ensemble Multimodal Machine Learning for Healthcare

217

25 Jul 2024

Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities

Muhammad Irzam Liaqat

Shah Nawaz

Muhammad Zaigham Zaheer

319

23 Jul 2024

Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training

283

22 Jul 2024

Benchmark Granularity and Model Robustness for Image-Text Retrieval

305

21 Jul 2024

Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation

176

21 Jul 2024

Recent Advances in Generative AI and Large Language Models: Current Status, Challenges, and Perspectives

D. Hagos

Rick Battle

Danda B. Rawat

LM&MA OffRL

490

20 Jul 2024

Towards Interpretable Visuo-Tactile Predictive Models for Soft Robot Interactions

Enrico Donato

T. G. Thuruthel

Egidio Falotico

180

16 Jul 2024

IoT-LM: Large Multisensory Language Models for the Internet of Things

Shentong Mo

Russ Salakhutdinov

Louis-Philippe Morency

Paul Pu Liang

MLLM

187

13 Jul 2024

Diagnosing and Re-learning for Balanced Multimodal Learning

Yake Wei

Siwei Li

Ruoxuan Feng

Di Hu

215

12 Jul 2024

Specialized curricula for training vision-language models in retinal image analysis

...

100

11 Jul 2024

TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data

Wenjia Bai

260

10 Jul 2024

Multimodal Chain-of-Thought Reasoning via ChatGPT to Protect Children from Age-Inappropriate Apps

Bin Liu

117

08 Jul 2024

Completed Feature Disentanglement Learning for Multimodal MRIs Analysis

381

06 Jul 2024

Multimodal Classification via Modal-Aware Interactive Enhancement

Qing-Yuan Jiang

Zhouyang Chi

Yang Yang

227

05 Jul 2024

Multi-modal Masked Siamese Network Improves Chest X-Ray Representation Learning

Saeed Shurrab

Alejandro Guerra-Manzanares

Farah E. Shamout

242

05 Jul 2024

Hard-Attention Gates with Gradient Routing for Endoscopic Image Computing

222

05 Jul 2024

Optimal thresholds and algorithms for a model of multi-modal learning in high dimensions

Christian Keup

Lenka Zdeborová

363

03 Jul 2024

Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection

288

02 Jul 2024

Multimodal Data Integration for Precision Oncology: Challenges and Future Directions

Fengtao Zhou

Hao Chen

311

28 Jun 2024

A Survey on Mixture of Experts in Large Language Models

477

26 Jun 2024

Enhancing Scientific Figure Captioning Through Cross-modal Learning

Mateo Alejandro Rojas

Rafael Carranza

193

24 Jun 2024

DevBench: A multimodal developmental benchmark for language learningNeural Information Processing Systems (NeurIPS), 2024

256

14 Jun 2024

Zoom and Shift are All You Need

Jiahao Qin

192

13 Jun 2024

Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey

Hongbo Zhang

Zongyang Ma

Wanxiang Che

Bing Qin

351

12 Jun 2024

Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model

217

12 Jun 2024

Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness

Rudovic

Ahmed Hussen Abdelaziz

Saurabh N. Adya

204

12 Jun 2024

Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment

Stan Z. Li

249

09 Jun 2024

Bayesian Structural Model Updating with Multimodal Variational AutoencoderComputer Methods in Applied Mechanics and Engineering (CMAME), 2024

118

07 Jun 2024

Contextual fusion enhances robustness to image blurring

Maxim Bazhenov

118

07 Jun 2024

AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection

328

05 Jun 2024

Automatic Fused Multimodal Deep Learning for Plant Identification

Alfreds Lapkovskis

Natalia Nefedova

Ali Beikmohammadi

316

03 Jun 2024

GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer

511

03 Jun 2024