A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset

21 January 2023

Papers citing "A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV Dataset"

6 / 6 papers shown

Title
ManaTTS Persian: a recipe for creating TTS datasets for lower resource languages Mahta Fetrat Qharabagh Zahra Dehghanian Hamid R. Rabiee 11 1 0 11 Sep 2024
AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech Technologies José-M. Acosta-Triana David Gimeno-Gómez Carlos David Martínez Hinarejos VLM VGen 34 2 0 20 Feb 2024
Leveraging Visemes for Better Visual Speech Representation and Lip Reading J. Peymanfard Vahid Saeedi Mohammad Reza Mohammadi Hossein Zeinali N. Mozayani 29 2 0 19 Jul 2023
End-to-end Audio-visual Speech Recognition with Conformers Pingchuan Ma Stavros Petridis M. Pantic 79 221 0 12 Feb 2021
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 214 2,224 0 14 Jun 2018
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 162 782 0 16 Nov 2016