v1v2 (latest)

Multimodal Learning with Transformers: A Survey

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

13 June 2022

Papers citing "Multimodal Learning with Transformers: A Survey"

50 / 305 papers shown

Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model

217

12 Jun 2024

UEMM-Air: Make Unmanned Aerial Vehicles Perform More Multi-modal Tasks

Liang Yao

Zequan Wang

Shimin Di

Jun Zhou

185

10 Jun 2024

CarbonSense: A Multimodal Dataset and Baseline for Carbon Flux ModellingInternational Conference on Learning Representations (ICLR), 2024

213

07 Jun 2024

ArMeme: Propagandistic Content in Arabic Memes

186

06 Jun 2024

MiniGPT-Reverse-Designing: Predicting Image Adjustments Utilizing MiniGPT-4

Vahid Azizi

Fatemeh Koochaki

VLM

322

03 Jun 2024

Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach

Mahsa Kadkhodaei Elyaderani

Shahram Shirani

337

02 Jun 2024

From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems

Siyu Chen

302

30 May 2024

The Evolution of Multimodal Model Architectures

321

28 May 2024

Mitigating Noisy Correspondence by Geometrical Structure Consistency Learning

Zihua Zhao

Mengxi Chen

Tianjie Dai

Jiangchao Yao

Bo han

Ya Zhang

Yanfeng Wang

NoLa

208

27 May 2024

ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection

...

437

27 May 2024

From Frege to chatGPT: Compositionality in language, cognition, and deep neural networks

516

24 May 2024

Transformers for Image-Goal Navigation

Nikhilanj Pelluri

ViT

347

23 May 2024

Mutual Information Analysis in Multimodal Learning Systems

21 May 2024

Generative AI Empowered LiDAR Point Cloud Generation with Multimodal Transformer

133

20 May 2024

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of ExpertsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

Baotian Hu

Lin Ma

235

100

18 May 2024

Networking Systems for Video Anomaly Detection: A Tutorial and SurveyACM Computing Surveys (ACM CSUR), 2024

569

16 May 2024

Representation Learning of Daily Movement Data Using Text Encoders

Payam Barnaghi

239

07 May 2024

A Short Survey of Human Mobility Prediction in Epidemic Modeling from Transformers to LLMs

Christian N. Mayemba

D'Jeff K. Nkashama

Jean Marie Tshimula

Maximilien V. Dialufuma

Jean Tshibangu Muabila

...

Kalonji Kalala

Aristarque Ilunga

Lambert Mukendi Ntobo

Dominique Muteba

A. Abedi

195

25 Apr 2024

Unveiling and Mitigating Generalized Biases of DNNs through the Intrinsic Dimensions of Perceptual Manifolds

Yanbiao Ma

Licheng Jiao

Fang Liu

Lingling Li

Wenping Ma

Shuyuan Yang

Xu Liu

Puhua Chen

247

22 Apr 2024

Sequential Compositional Generalization in Multimodal Models

195

18 Apr 2024

Terrain-Aware Stride-Level Trajectory Forecasting for a Powered Hip Exoskeleton via Vision and Kinematics Fusion

Ruoqi Zhao

Xing-bang Yang

Yubo Fan

18 Apr 2024

Towards a Foundation Model for Partial Differential Equations: Multi-Operator Learning and Extrapolation

Jingmin Sun

Yuxuan Liu

Zecheng Zhang

Hayden Schaeffer

AI4CE

402

18 Apr 2024

Explainable Generative AI (GenXAI): A Survey, Conceptualization, and Research Agenda

Johannes Schneider

258

15 Apr 2024

Global Contrastive Training for Multimodal Electronic Health Records with Language Supervision

...

220

10 Apr 2024

Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition

R Gnana Praveen

Jahangir Alam

252

28 Mar 2024

Debiasing surgeon: fantastic weights and how to find them

Rémi Nahon

Ivan Luiz De Moura Matos

Van-Tam Nguyen

Enzo Tartaglione

226

21 Mar 2024

Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation

235

21 Mar 2024

A Survey on Quality Metrics for Text-to-Image GenerationIEEE Transactions on Visualization and Computer Graphics (TVCG), 2024

Timo Ropinski

297

18 Mar 2024

Affective Behaviour Analysis via Integrating Multi-Modal Knowledge

229

16 Mar 2024

Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity

Miguel R. D. Rodrigues

279

14 Mar 2024

Materials science in the era of large language models: a perspectiveDigital Discovery (DD), 2024

Ge Lei

Ronan Docherty

Samuel J. Cooper

227

11 Mar 2024

Temporal Cross-Attention for Dynamic Embedding and Tokenization of Multimodal Electronic Health Records

...

253

06 Mar 2024

Time Series Analysis in Compressor-Based Machines: A Survey

Francesca Forbicini

Nicolò Oreste Pinciroli Vago

Piero Fraternali

AI4CE

221

27 Feb 2024

Hallucinations or Attention Misdirection? The Path to Strategic Value Extraction in Business Using Large Language Models

Aline Ioste

195

21 Feb 2024

Can Text-to-image Model Assist Multi-modal Learning for Visual Recognition with Visual Modality Missing?

Tiantian Feng

Daniel Yang

Digbalay Bose

Shrikanth Narayanan

274

14 Feb 2024

Intriguing Differences Between Zero-Shot and Systematic Evaluations of Vision-Language Transformer Models

170

13 Feb 2024

Quantifying and Enhancing Multi-modal Robustness with Modality Preference

330

09 Feb 2024

AI enhanced data assimilation and uncertainty quantification applied to Geological Carbon Storage

G. S. Seabra

N. T. Mücke

Vinicius Luiz Santos Silva

Denis Voskov

F. Vossepoel

AI4CE

188

09 Feb 2024

RepQuant: Towards Accurate Post-Training Quantization of Large Transformer Models via Scale Reparameterization

Zhikai Li

Xuewen Liu

Jing Zhang

Qingyi Gu

249

08 Feb 2024

Examining Modality Incongruity in Multimodal Federated Learning for Medical Vision and Language-based Disease Detection

Pramit Saha

Divyanshu Mishra

Felix Wagner

Konstantinos Kamnitsas

J. A. Noble

147

07 Feb 2024

RA-Rec: An Efficient ID Representation Alignment Framework for LLM-based Recommendation

172

07 Feb 2024

Integrative Variational Autoencoders for Generative Modeling of an Image Outcome with Multiple Input Images

Alzheimer's Disease Neuroimaging Initiatives

220

05 Feb 2024

GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering

259

04 Feb 2024

The Landscape and Challenges of HPC Research and LLMs

Nesreen K. Ahmed

...

265

03 Feb 2024

Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition

Lei Liu

Tianpeng Liu

Haizhou Li

262

31 Jan 2024

A Survey on Visual Anomaly Detection: Challenge, Approach, and Prospect

Jiangning Zhang

252

29 Jan 2024

Cross-Modal Coordination Across a Diverse Set of Input Modalities

Jorge Sánchez

Rodrigo Laguna

VLM

241

29 Jan 2024

Intriguing Equivalence Structures of the Embedding Space of Vision Transformers

Shaeke Salman

M. Shams

Xiuwen Liu

272

28 Jan 2024

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other ModalitiesComputer Vision and Pattern Recognition (CVPR), 2024

Ying Shan

312

25 Jan 2024

Cascaded Cross-Modal Transformer for Audio-Textual ClassificationArtificial Intelligence Review (Artif Intell Rev), 2024

Nicolae-Cătălin Ristea

Andrei Anghel

Radu Tudor Ionescu

248

15 Jan 2024