Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion Recognition?

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

18 February 2022

Vandana Rajan

Alessio Brutti

Andrea Cavallaro

ArXiv (abs)PDF HTML Github (59★)

Papers citing "Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion Recognition?"

17 / 17 papers shown

MF-GCN: A Multi-Frequency Graph Convolutional Network for Tri-Modal Depression Detection Using Eye-Tracking, Facial, and Acoustic Features

Sejuti Rahman

Swakshar Deb

MD. Sameer Iqbal Chowdhury

MD. Jubair Ahmed Sourov

Mohammad Shamsuddin

152

19 Nov 2025

IsoNet: Causal Analysis of Multimodal Transformers for Neuromuscular Gesture Classification

168

20 Jun 2025

CROSS-GAiT: Cross-Attention-Based Multimodal Representation Fusion for Parametric Gait Adaptation in Complex Terrains

Gershom Seneviratne

K. Weerakoon

Mohamed Bashir Elnoor

Vignesh Rajgopal

Harshavarthan Varatharajan

Mohamed Khalid M Jaffar

Jason Pusey

Wanrong Zhu

CVBM

369

25 Sep 2024

A Depression Detection Method Based on Multi-Modal Feature Fusion Using Cross-Attention

Shengjie Li

Yinhao Xiao

305

02 Jul 2024

Stock Movement Prediction with Multimodal Stable Fusion via Gated Cross-Attention Mechanism

Chang Zong

Jian Shao

Weiming Lu

Yueting Zhuang

300

06 Jun 2024

Leveraging Speech for Gesture Detection in Multimodal Communication

257

23 Apr 2024

Cross-Attention Fusion of Visual and Geometric Features for Large Vocabulary Arabic Lipreading

240

18 Feb 2024

Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection

297

14 Feb 2024

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion RecognitionInformation Fusion (Inf. Fusion), 2024

341

11 Jan 2024

Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition

215

18 Nov 2023

Interaction is all You Need? A Study of Robots Ability to Understand and Execute

Kushal Koshti

Nidhir Bhavsar

243

13 Nov 2023

Exploring Emotion Expression Recognition in Older Adults Interacting with a Virtual CoachIEEE Transactions on Affective Computing (IEEE Trans. Affective Comput.), 2023

...

Dijana Petrovska – Delacretaz

M. Inés Torres

Sergio Escalera

292

09 Nov 2023

3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for Embodied Turn-Taking PredictionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

333

23 Oct 2023

A Survey on Image-text Multimodal Models

Ruifeng Guo

Jingxuan Wei

Linzhuang Sun

Khai-Nguyen Nguyen

Guiyong Chang

Dawei Liu

Sibo Zhang

Zhengbing Yao

Mingjun Xu

Liping Bu

VLM

413

23 Sep 2023

Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition

Yaoting Wang

Yuanchao Li

Paul Pu Liang

Louis-Philippe Morency

P. Bell

Catherine Lai

CVBM

363

23 May 2023

Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment AnalysisIEEE Transactions on Affective Computing (IEEE TAC), 2022

313

122

16 Aug 2022

Continuous-Time Audiovisual Fusion with Recurrence vs. Attention for In-The-Wild Affect Recognition

Björn W. Schuller

309

24 Mar 2022