v1v2 (latest)

MLS: A Large-Scale Multilingual Dataset for Speech Research

Interspeech (Interspeech), 2020

7 December 2020

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "MLS: A Large-Scale Multilingual Dataset for Speech Research"

50 / 390 papers shown

From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

198

19 Jan 2023

Scaling Laws for Generative Mixed-Modal Language ModelsInternational Conference on Machine Learning (ICML), 2023

Luke Zettlemoyer

333

140

10 Jan 2023

Supervised Acoustic Embeddings And Their Transferability Across LanguagesInternational Conference on Natural Language and Speech Processing (ICNLSP), 2023

Sreepratha Ram

Hanan Aldarmaki

SSL

159

03 Jan 2023

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement

Yossi Adi

263

21 Dec 2022

$Mu$^{2}$SLAM: Multitask, Multilingual Speech and Language Models$

^{2}

SLAM: Multitask, Multilingual Speech and Language ModelsInternational Conference on Machine Learning (ICML), 2022

199

19 Dec 2022

UnitY: Two-pass Direct Speech-to-speech Translation with Discrete UnitsAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

326

15 Dec 2022

Ring That Bell: A Corpus and Method for Multimodal Metaphor Detection in Videos

Khalid Alnajjar

Mika Hämäläinen

Shuo Zhang

203

15 Dec 2022

Towards trustworthy phoneme boundary detection with autoregressive model and improved evaluation metricIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Hyeongju Kim

Hyeong-Seok Choi

152

13 Dec 2022

Robust Speech Recognition via Large-Scale Weak SupervisionInternational Conference on Machine Learning (ICML), 2022

1.2K

6,136

06 Dec 2022

EURO: ESPnet Unsupervised ASR Open-source ToolkitIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Dongji Gao

Jiatong Shi

Shun-Po Chuang

Leibny Paola García-Perera

Hung-yi Lee

Shinji Watanabe

Sanjeev Khudanpur

246

30 Nov 2022

Dialogs Re-enacted Across Languages

217

18 Nov 2022

Casual Conversations v2: Designing a large consent-driven dataset to measure algorithmic bias and robustness

...

Cristian Canton Ferrer

227

10 Nov 2022

Massively Multilingual ASR on 70 Languages: Tokenization, Architecture, and Generalization CapabilitiesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Ozlem Kalinli

246

10 Nov 2022

Multi-blank Transducers for Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Hainan Xu

Fei Jia

Somshubra Majumdar

Shinji Watanabe

Boris Ginsburg

239

04 Nov 2022

I4U System Description for NIST SRE'20 CTS Challenge

Kong Aik Lee

...

Haizhou Li

Alfonso Ortega Giménez

Longbiao Wang

L. Buera

139

02 Nov 2022

Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-SpeechIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Zhehuai Chen

Andrew Rosenberg

Bhuvana Ramabhadran

288

27 Oct 2022

Multi-class Detection of Pathological Speech with Latent Features: How does it perform on unseen data?Interspeech (Interspeech), 2022

204

27 Oct 2022

Improving Speech-to-Speech Translation Through Unlabeled TextIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

207

26 Oct 2022

EBEN: Extreme bandwidth extension network applied to speech signals captured with noise-resilient body-conduction microphonesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

176

25 Oct 2022

ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition

Sanchit Gandhi

Patrick von Platen

Alexander M. Rush

151

24 Oct 2022

Low-Resource Multilingual and Zero-Shot Multispeaker TTS

Florian Lux

Julia Koch

Ngoc Thang Vu

218

21 Oct 2022

Large-scale learning of generalised representations for speaker recognition

Hye-jin Shim

248

20 Oct 2022

Maestro-U: Leveraging joint speech-text representation learning for zero supervised speech ASRSpoken Language Technology Workshop (SLT), 2022

Zhehuai Chen

Andrew Rosenberg

Bhuvana Ramabhadran

254

18 Oct 2022

Bringing NURC/SP to Digital Life: the Role of Open-source Automatic Speech Recognition Models

L. Gris

Arnaldo Cândido Júnior

178

14 Oct 2022

On the Utility of Self-supervised Models for Prosody-related TasksSpoken Language Technology Workshop (SLT), 2022

Guan-Ting Lin

216

13 Oct 2022

Fine-tuning Wav2vec for Vocal-burst Emotion Recognition

Soo-Huyng Kim

113

01 Oct 2022

MeWEHV: Mel and Wave Embeddings for Human Voice TasksIEEE Access (IEEE Access), 2022

Andrés Vasco-Carofilis

Laura Fernández-Robles

Enrique Alegre

Eduardo FIDALGO

211

28 Sep 2022

Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing N-gram Language ModelsInternational Conference on Software and Computer Applications (ICSCA), 2022

Md. Ismail Hossain

187

13 Sep 2022

Learning ASR pathways: A sparse multilingual ASR modelIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Ozlem Kalinli

411

13 Sep 2022

Applying wav2vec2 for Speech Recognition on Bengali Common Voices Dataset

Haz Sameen Shahgir

Khondker Salman Sayeed

Tanjeem Azwad Zaman

168

11 Sep 2022

Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge

A. I. S. Ferreira

Gustavo dos Reis Oliveira

253

29 Jul 2022

PoeticTTS -- Controllable Poetry Reading for Literary StudiesInterspeech (Interspeech), 2022

146

11 Jul 2022

Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities on Multilingual Speech RecognitionInterspeech (Interspeech), 2022

Muhammad Umar Farooq

Thomas Hain

07 Jul 2022

The THUEE System Description for the IARPA OpenASR21 ChallengeInterspeech (Interspeech), 2022

147

29 Jun 2022

TEVR: Improving Speech Recognition by Token Entropy Variance Reduction

Hajo N. Krabbenhöft

Erhardt Barth

179

25 Jun 2022

Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-SpeechSpoken Language Technology Workshop (SLT), 2022

Florian Lux

Julia Koch

Ngoc Thang Vu

202

24 Jun 2022

Exploring the Effectiveness of Self-supervised Learning and Classifier Chains in Emotion Recognition of Nonverbal Vocalizations

Detai Xin

Shinnosuke Takamichi

Hiroshi Saruwatari

107

21 Jun 2022

FLEURS: Few-shot Learning Evaluation of Universal Representations of SpeechSpoken Language Technology Workshop (SLT), 2022

514

498

25 May 2022

Adaptive multilingual speech recognition with pretrained modelsInterspeech (Interspeech), 2022

227

24 May 2022

Self-Supervised Speech Representation Learning: A ReviewIEEE Journal on Selected Topics in Signal Processing (IEEE JSTSP), 2022

Abdel-rahman Mohamed

Hung-yi Lee

Lasse Borgholt

Jakob Drachmann Havtorn

...

713

460

21 May 2022

Automatic Spoken Language Identification using a Time-Delay Neural Network

Benjamin Kepecs

Homayoon Beigi

19 May 2022

Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech TranslationInterspeech (Interspeech), 2022

258

18 May 2022

Quantifying Language Variation Acoustically with Few ResourcesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2022

Martijn Bartelds

Martijn B. Wieling

185

05 May 2022

ASR in German: A Detailed Error Analysis

John M. Wirth

René Peinl

153

12 Apr 2022

Transducer-based language embedding for spoken language identificationInterspeech (Interspeech), 2022

Peng Shen

Xugang Lu

Hisashi Kawai

185

08 Apr 2022

MAESTRO: Matched Speech Text Representations through Modality MatchingInterspeech (Interspeech), 2022

Zhehuai Chen

Yu Zhang

Andrew Rosenberg

Bhuvana Ramabhadran

Pedro J. Moreno

Ankur Bapna

Heiga Zen

258

119

07 Apr 2022

Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data AugmentationInterspeech (Interspeech), 2022

Yossi Adi

304

06 Apr 2022

Towards End-to-end Unsupervised Speech RecognitionSpoken Language Technology Workshop (SLT), 2022

242

05 Apr 2022

A Study of Gender Impact in Self-supervised Models for Speech-to-Text SystemsInterspeech (Interspeech), 2022

223

04 Apr 2022

End-to-End Multi-speaker ASR with Independent Vector AnalysisSpoken Language Technology Workshop (SLT), 2022

Wangyou Zhang

258

01 Apr 2022