MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization

25 June 2024

Honglie Chen

Lu Yin

Shiwei Liu

Maja Pantic

Papers citing "MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization"

4 / 4 papers shown

Title
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers David Gimeno-Gómez Carlos David Martínez Hinarejos 86 2 0 09 Jul 2024
Visual Speech Recognition for Multiple Languages in the Wild Pingchuan Ma Stavros Petridis M. Pantic VLM 112 144 0 26 Feb 2022
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 214 2,224 0 14 Jun 2018
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 162 782 0 16 Nov 2016