Multiresolution and Multimodal Speech Recognition with Transformers

Annual Meeting of the Association for Computational Linguistics (ACL), 2020

29 April 2020

Georgios Paraskevopoulos

Srinivas Parthasarathy

Aparna Khare

Shiva Sundaram

ArXiv (abs)PDF HTML

Papers citing "Multiresolution and Multimodal Speech Recognition with Transformers"

15 / 15 papers shown

Robust Audiovisual Speech Recognition Models with Mixture-of-ExpertsSpoken Language Technology Workshop (SLT), 2024

Yihan Wu

Yifan Peng

Yichen Lu

Xuankai Chang

Ruihua Song

Shinji Watanabe

343

19 Sep 2024

SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data

Yichen Lu

Álvaro Huertas-García

Xuankai Chang

Hengwei Bian

Soumi Maiti

Shinji Watanabe

276

01 Aug 2024

Adaptation and Optimization of Automatic Speech Recognition (ASR) for the Maritime Domain in the Field of VHF Communication

Emin Cagatay Nakilcioglu

M. Reimann

O. John

129

01 Jun 2023

AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASRComputer Vision and Pattern Recognition (CVPR), 2023

Paul Hongsuck Seo

Arsha Nagrani

Cordelia Schmid

259

29 Mar 2023

Sample-Efficient Unsupervised Domain Adaptation of Speech Recognition Systems A case study for Modern GreekIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2022

Georgios Paraskevopoulos

Theodoros Kouzelis

Georgios Rouvalis

Athanasios Katsamanis

Vassilis Katsouros

Alexandros Potamianos

VLM

357

31 Dec 2022

AVATAR: Unconstrained Audiovisual Speech RecognitionInterspeech (Interspeech), 2022

179

15 Jun 2022

Improving Multimodal Speech Recognition by Data Augmentation and Speech Representations

Dan Oneaţă

H. Cucu

158

27 Apr 2022

ASR-Aware End-to-end Neural DiarizationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

288

02 Feb 2022

MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment AnalysisIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Georgios Paraskevopoulos

Efthymios Georgiou

Alexandros Potamianos

170

24 Jan 2022

Transformers for prompt-level EMA non-response prediction

Supriya Nagesh

Alexander Moreno

Stephanie M Carpenter

...

Inbal Nahum-Shani

128

01 Nov 2021

LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution Homography EstimationIEEE International Conference on Computer Vision (ICCV), 2021

Yebin Liu

291

08 Jun 2021

Detecting expressions with multimodal transformersSpoken Language Technology Workshop (SLT), 2020

Srinivas Parthasarathy

Shiva Sundaram

286

30 Nov 2020

Self-Supervised learning with cross-modal transformers for emotion recognitionSpoken Language Technology Workshop (SLT), 2020

Aparna Khare

Srinivas Parthasarathy

Shiva Sundaram

SSL

195

20 Nov 2020

Training Strategies to Handle Missing Modalities for Audio-Visual Expression Recognition

Srinivas Parthasarathy

Shiva Sundaram

330

103

02 Oct 2020

Multi-modal embeddings using multi-task learning for emotion recognitionInterspeech (Interspeech), 2020

Aparna Khare

Srinivas Parthasarathy

Shiva Sundaram

141

10 Sep 2020