A Pre-trained Audio-Visual Transformer for Emotion Recognition

23 January 2022

Papers citing "A Pre-trained Audio-Visual Transformer for Emotion Recognition"

3 / 3 papers shown

Title
A vector quantized masked autoencoder for audiovisual speech emotion recognition Samir Sadok Simon Leglaive Renaud Séguier SSL 39 6 0 05 May 2023
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 206 1,954 0 14 Jun 2018