v1v2 (latest)

MLS: A Large-Scale Multilingual Dataset for Speech Research

Interspeech (Interspeech), 2020

7 December 2020

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "MLS: A Large-Scale Multilingual Dataset for Speech Research"

50 / 390 papers shown

Novel Parasitic Dual-Scale Modeling for Efficient and Accurate Multilingual Speech Translation

15 Aug 2025

$$\text{M}^3\text{PDB}$: A Multimodal, Multi-Label, Multilingual Prompt Database for Speech Generation$

\text{M}^3\text{PDB}

: A Multimodal, Multi-Label, Multilingual Prompt Database for Speech Generation

118

13 Aug 2025

Flow-SLM: Joint Learning of Linguistic and Acoustic Information for Spoken Language Modeling

Ju-Chieh Chou

Jiawei Zhou

Karen Livescu

239

12 Aug 2025

Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models

200

11 Aug 2025

REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation

Nameer Hirschkind

Joseph Liu

Xiao Yu

168

07 Aug 2025

MiDashengLM: Efficient Audio Understanding with General Audio Captions

437

06 Aug 2025

Multilingual Source Tracing of Speech Deepfakes: A First Benchmark

168

06 Aug 2025

Whilter: A Whisper-based Data Filter for "In-the-Wild" Speech Corpora Using Utterance-level Multi-Task Classification

216

29 Jul 2025

Binaural Target Speaker Extraction using HRTFs

Yoav Ellinson

Sharon Gannot

168

25 Jul 2025

The TEA-ASLP System for Multilingual Conversational Speech Recognition and Speech Diarization in MLC-SLM 2025 Challenge

126

24 Jul 2025

Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge

166

23 Jul 2025

FastLongSpeech: Enhancing Large Speech-Language Models for Efficient Long-Speech Processing

248

20 Jul 2025

Controllable joint noise reduction and hearing loss compensation using a differentiable auditory model

Philippe Gonzalez

Torsten Dau

Tobias May

189

12 Jul 2025

ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark

268

08 Jul 2025

USAD: Universal Speech and Audio Representation via Distillation

326

23 Jun 2025

Instituto de Telecomunicações at IWSLT 2025: Aligning Small-Scale Speech and Language Models for Speech-to-Text LearningInternational Workshop on Spoken Language Translation (IWSLT), 2025

191

20 Jun 2025

Weight Factorization and Centralization for Continual Learning in Speech Recognition

158

19 Jun 2025

Factorized RVQ-GAN For Disentangled Speech Tokenization

...

164

18 Jun 2025

NTU Speechlab LLM-Based Multilingual ASR System for Interspeech MLC-SLM Challenge 2025

241

16 Jun 2025

Can we reconstruct a dysarthric voice with the large speech model Parler TTS?

Ariadna Sanchez

Simon King

119

04 Jun 2025

The mutual exclusivity bias of bilingual visually grounded speech models

152

04 Jun 2025

Evaluating the Effectiveness of Pre-Trained Audio Embeddings for Classification of Parkinson's Disease Speech Data

Emmy Postma

Cristian Tejedor-Garcia

150

02 Jun 2025

GigaAM: Efficient Self-Supervised Learner for Speech Recognition

232

01 Jun 2025

Rhythm Controllable and Efficient Zero-Shot Voice Conversion via Shortcut Flow MatchingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

227

01 Jun 2025

What do self-supervised speech models know about Dutch? Analyzing advantages of language-specific pre-training

Marianne de Heer Kloots

277

01 Jun 2025

ZIPA: A family of efficient models for multilingual phone recognitionAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

216

29 May 2025

Spoken question answering for visual queries

249

29 May 2025

The Warmup Dilemma: How Learning Rate Strategies Impact Speech-to-Text Model ConvergenceInternational Workshop on Spoken Language Translation (IWSLT), 2025

200

29 May 2025

FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian

308

28 May 2025

A Linguistically Motivated Analysis of Intonational Phrasing in Text-to-Speech Systems: Revealing Gaps in Syntactic Sensitivity

Charlotte Pouw

Afra Alishahi

Willem H. Zuidema

209

28 May 2025

Loquacious Set: 25,000 Hours of Transcribed and Diverse English Speech Recognition Data for Research and Commercial Use

150

27 May 2025

Speechless: Speech Instruction Training Without Speech for Low Resource Languages

Warren Keng Hoong Low

Eng Siong Chng

J. Yip

SyDa

293

23 May 2025

TEDI: Trustworthy and Ethical Dataset Indicators to Analyze and Compare Dataset Documentation

381

23 May 2025

From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition

291

22 May 2025

Selective Invocation for Multilingual ASR: A Cost-effective Approach Adapting to Speech Recognition Difficulty

275

22 May 2025

LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors

332

16 May 2025

Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration

1.0K

07 May 2025

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

...

250

06 May 2025

Voice Cloning: Comprehensive Survey

Hussam Azzuni

Abdulmotaleb El Saddik

VLM

351

01 May 2025

Enhancing Non-Core Language Instruction-Following in Speech LLMs via Semi-Implicit Cross-Lingual CoT Reasoning

236

29 Apr 2025

Kimi-Audio Technical Report

...

429

124

25 Apr 2025

Speaker Diarization for Low-Resource Languages Through Wav2vec Fine-Tuning

Abdulhady Abas Abdullah

961

23 Apr 2025

SoCov: Semi-Orthogonal Parametric Pooling of Covariance Matrix for Speaker RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

221

23 Apr 2025

ALMTokenizer: A Low-bitrate and Semantic-rich Audio Codec Tokenizer for Audio Language Modeling

...

398

14 Apr 2025

SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-TuningAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Prabhat Pandey

Rupak Vignesh Swaminathan

953

12 Apr 2025

UniSep: Universal Target Audio Separation with Language Models at Scale

216

31 Mar 2025

Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

315

30 Mar 2025

Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages

312

26 Mar 2025

Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained RepresentationsIEEE Journal on Selected Topics in Signal Processing (JSTSP), 2024

378

15 Mar 2025

From TOWER to SPIRE: Adding the Speech Modality to a Translation-Specialist LLM

424

13 Mar 2025