v1v2 (latest)

Multimodal Learning with Transformers: A Survey

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

13 June 2022

Papers citing "Multimodal Learning with Transformers: A Survey"

50 / 305 papers shown

JEMA: A Joint Embedding Framework for Scalable Co-Learning with Multimodal Alignment

219

31 Oct 2024

Enhancing Action Recognition by Leveraging the Hierarchical Structure of Actions and Textual ContextComputer Vision and Image Understanding (CVIU), 2024

Manuel Benavent-Lledo

David Mulero-Pérez

David Ortiz-Perez

José García Rodríguez

Antonis Argyros

320

28 Oct 2024

Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved OffloadingInternational Middleware Conference (Middleware), 2024

175

26 Oct 2024

Graph Linearization Methods for Reasoning on Graphs with Large Language Models

Christos Xypolopoulos

Michail Chatzianastasis

Giorgos Stamou

Michalis Vazirgiannis

311

25 Oct 2024

FedBaF: Federated Learning Aggregation Biased by a Foundation ModelInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

402

24 Oct 2024

Deep Insights into Cognitive Decline: A Survey of Leveraging Non-Intrusive Modalities with Deep Learning TechniquesApplied Soft Computing (Appl. Soft Comput.), 2024

David Ortiz-Perez

Manuel Benavent-Lledo

José García Rodríguez

David Tomás

M. Flores Vizcaya-Moreno

237

24 Oct 2024

Multi-Modal Transformer and Reinforcement Learning-based Beam ManagementIEEE Networking Letters (IEEE Netw. Lett.), 2024

139

22 Oct 2024

Breaking Modality Gap in RGBT Tracking: Coupled Knowledge DistillationACM Multimedia (MM), 2024

253

15 Oct 2024

Investigating Human-Computer Interaction and Visual Comprehension in Text Generation Process of Natural Language Generation Models

151

11 Oct 2024

Exploring Foundation Models in Remote Sensing Image Change Detection: A Comprehensive Survey

258

10 Oct 2024

Recent Advances of Multimodal Continual Learning: A Comprehensive Survey

Dianzhi Yu

Xinni Zhang

Yankai Chen

Aiwei Liu

Yifei Zhang

Philip S. Yu

Irwin King

VLM CLL

355

07 Oct 2024

Fine-Grained Prediction of Reading Comprehension from Eye MovementsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

155

06 Oct 2024

MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection

406

03 Oct 2024

Multi-modal Cross-domain Self-supervised Pre-training for fMRI and EEG FusionNeural Networks (NN), 2024

Yu Zhang

183

27 Sep 2024

CLLMate: A Multimodal Benchmark for Weather and Climate Events Forecasting

126

27 Sep 2024

A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality ScenariosACM Conference on Recommender Systems (RecSys), 2024

Markus Schedl

238

26 Sep 2024

Multimodal Banking Dataset: Understanding Client Needs through Event Sequences

292

26 Sep 2024

Text2Traj2Text: Learning-by-Synthesis Framework for Contextual Captioning of Human Movement TrajectoriesInternational Conference on Natural Language Generation (INLG), 2024

275

19 Sep 2024

PROSE-FD: A Multimodal PDE Foundation Model for Learning Multiple Operators for Forecasting Fluid Dynamics

Jingmin Sun

Zecheng Zhang

244

15 Sep 2024

Integration of Mamba and Transformer -- MAT for Long-Short Range Time Series Forecasting with Application to Weather Dynamics

269

13 Sep 2024

What to align in multimodal contrastive learning?International Conference on Learning Representations (ICLR), 2024

341

11 Sep 2024

ESP-PCT: Enhanced VR Semantic Performance through Efficient Compression of Temporal and Spatial Redundancies in Point Cloud TransformersInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

Shuai Wang

Shuai Wang

225

02 Sep 2024

SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language DescriptionACM Multimedia (MM), 2024

Shuoyi Zhou

Songtao Zhou

Xiaoyu Qin

Zhiyong Wu

238

24 Aug 2024

Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach

Muhammad Saad Saeed

Shah Nawaz

Muhammad Zaigham Zaheer

Muhammad Haris Khan

Karthik Nandakumar

Muhammad Haroon Yousaf

Hassan Sajjad

Tom De Schepper

Markus Schedl

296

14 Aug 2024

Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion

261

14 Aug 2024

Swarm-Net: Firmware Attestation in IoT Swarms using Graph Neural Networks and Volatile MemoryIEEE Internet of Things Journal (IEEE IoT J.), 2024

117

11 Aug 2024

Survey: Transformer-based Models in Data Modality Conversion

225

08 Aug 2024

MoExtend: Tuning New Experts for Modality and Task ExtensionAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Shanshan Zhong

Pan Zhou

271

07 Aug 2024

A Systematic Review of Intermediate Fusion in Multimodal Deep Learning for Biomedical ApplicationsImage and Vision Computing (IVC), 2024

188

02 Aug 2024

HyperMM : Robust Multimodal Learning with Varying-sized Inputs

199

30 Jul 2024

EgoSonics: Generating Synchronized Audio for Silent Egocentric Videos

Aashish Rai

Srinath Sridhar

DiffM

191

30 Jul 2024

DDAP: Dual-Domain Anti-Personalization against Text-to-Image Diffusion Models

207

29 Jul 2024

UOUO: Uncontextualized Uncommon Objects for Measuring Knowledge Horizons of Vision Language Models

205

25 Jul 2024

Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities

Muhammad Irzam Liaqat

Shah Nawaz

Muhammad Zaigham Zaheer

319

23 Jul 2024

Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training

283

22 Jul 2024

Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development

276

16 Jul 2024

Diagnosing and Re-learning for Balanced Multimodal Learning

Yake Wei

Siwei Li

Ruoxuan Feng

Di Hu

215

12 Jul 2024

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

Bolin Ding

Yaliang Li

Shuiguang Deng

347

11 Jul 2024

CPM: Class-conditional Prompting Machine for Audio-visual Segmentation

319

07 Jul 2024

Multimodal Classification via Modal-Aware Interactive Enhancement

Qing-Yuan Jiang

Zhouyang Chi

Yang Yang

227

05 Jul 2024

Adaptive Modality Balanced Online Knowledge Distillation for Brain-Eye-Computer based Dim Object Detection

288

02 Jul 2024

Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review

Moseli Motsóehli

VLM 3DV

277

28 Jun 2024

Multimodal Prototyping for cancer survival prediction

344

28 Jun 2024

Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning

Arijit Sehanobish

Avinava Dubey

Krzysztof Choromanski

Somnath Basu Roy Chowdhury

274

25 Jun 2024

What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation

Carsten Eickhoff

446

24 Jun 2024

In-Context In-Context Learning with Transformer Neural ProcessesSymposium on Advances in Approximate Bayesian Inference (AABI), 2024

Matthew Ashman

Cristiana-Diana Diaconu

Adrian Weller

Richard E. Turner

230

19 Jun 2024

Breaking the Memory Wall: A Study of I/O Patterns and GPU Memory Utilization for Hybrid CPU-GPU Offloaded Optimizers

187

15 Jun 2024

Improving Large Models with Small models: Lower Costs and Better Performance

Yueting Zhuang

206

15 Jun 2024

MoME: Mixture of Multimodal Experts for Cancer Survival PredictionInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

Conghao Xiong

Hao Chen

Hao Zheng

Dong Wei

Yefeng Zheng

Joseph J. Y. Sung

Irwin King

MoE

216

14 Jun 2024

Cross-Modal Learning for Anomaly Detection in Fused Magnesium Smelting Process: Methodology and Benchmark

209

13 Jun 2024