A Pre-trained Audio-Visual Transformer for Emotion Recognition

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

23 January 2022

Minh Tran

M. Soleymani

ArXiv (abs)PDF HTML

Papers citing "A Pre-trained Audio-Visual Transformer for Emotion Recognition"

9 / 9 papers shown

eMotions: A Large-Scale Dataset and Audio-Visual Fusion Network for Emotion Analysis in Short-form Videos

...

212

09 Aug 2025

MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition

251

28 Apr 2024

Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition

R Gnana Praveen

Jahangir Alam

445

20 Mar 2024

Joint Multimodal Transformer for Emotion Recognition in the Wild

352

15 Mar 2024

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion RecognitionInformation Fusion (Inf. Fusion), 2024

333

11 Jan 2024

SVFAP: Self-supervised Video Facial Affect PerceiverIEEE Transactions on Affective Computing (TAC), 2023

207

31 Dec 2023

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression RecognitionACM Multimedia (ACM MM), 2023

264

05 Jul 2023

A vector quantized masked autoencoder for audiovisual speech emotion recognitionComputer Vision and Image Understanding (CVIU), 2023

632

05 May 2023

Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer EncodersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019

603

394

25 Oct 2019