v1v2 (latest)

MLS: A Large-Scale Multilingual Dataset for Speech Research

Interspeech (Interspeech), 2020

7 December 2020

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "MLS: A Large-Scale Multilingual Dataset for Speech Research"

50 / 390 papers shown

SpoofCeleb: Speech Deepfake Detection and SASV In The WildIEEE Open Journal of Signal Processing (JOSP), 2024

Jee-weon Jung

Yihan Wu

Xin Wang

...

Wangyou Zhang

Shinji Watanabe

330

18 Sep 2024

Ideal-LLM: Integrating Dual Encoders and Language-Adapted LLM for Multilingual Speech-to-Text

Hongfei Xue

Kun Wei

Qijie Shao

Lei Xie

217

17 Sep 2024

StyleTTS-ZS: Efficient High-Quality Zero-Shot Text-to-Speech Synthesis with Distilled Time-Varying Style DiffusionNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

311

16 Sep 2024

Improving Robustness of Diffusion-Based Zero-Shot Speech Synthesis via Stable Formant GenerationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

1.1K

14 Sep 2024

Exploring SSL Discrete Tokens for Multilingual ASR

Mingyu Cui

Daxin Tan

Yifan Yang

Dingdong Wang

Huimeng Wang

Xiao Chen

Xie Chen

Xunying Liu

335

13 Sep 2024

Text-To-Speech Synthesis In The Wild

...

452

13 Sep 2024

The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language

Michael Ong

Sean Robertson

Leo Peckham

Alba Jorquera Jimenez de Aberasturi

727

12 Sep 2024

A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition EvaluationBrazilian Conference on Intelligent Systems (BRACIS), 2024

Rodrigo Lima

S. Leal

Arnaldo Candido Junior

S. Aluísio

200

10 Sep 2024

Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and TranslationSpoken Language Technology Workshop (SLT), 2024

Nithin Rao Koluguri

Travis M. Bartley

Hainan Xu

Oleksii Hrinchuk

Jagadeesh Balam

Boris Ginsburg

Georg Kucsko

392

09 Sep 2024

STAB: Speech Tokenizer Assessment Benchmark

Chulayuth Asawaroengchai

Kartik Audhkhasi

Andrew Rosenberg

Ankur Bapna

Bhuvana Ramabhadran

233

04 Sep 2024

vec2wav 2.0: Advancing Voice Conversion via Discrete Token Vocoders

424

03 Sep 2024

A multilingual training strategy for low resource Text to Speech

Asma Amalas

Mounir Ghogho

Mohamed Chetouani

Rachid Oulad Haj Thami

289

02 Sep 2024

Progressive Residual Extraction based Pre-training for Speech Representation LearningIEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2024

Tianrui Wang

Jin Li

Ziyang Ma

Rui Cao

Xie Chen

...

Meng Ge

Xiaobao Wang

Yuguang Wang

Jianwu Dang

Nyima Tashi

SSL

316

31 Aug 2024

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Zhifei Xie

Changqiao Wu

AuLLM VGen VLM SyDa LRM

452

186

29 Aug 2024

NEST: Self-supervised Fast Conformer as All-purpose Seasoning to Speech Processing TasksIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

He Huang

Taejin Park

Kunal Dhawan

Jagadeesh Balam

Boris Ginsburg

SSL AI4TS

383

23 Aug 2024

BUT Systems and Analyses for the ASVspoof 5 Challenge

Johan Rohdin

Lin Zhang

Oldřich Plchot

Vojtěch Staněk

...

Lukáš Burget

252

20 Aug 2024

SZU-AFS Antispoofing System for the ASVspoof 5 Challenge

217

19 Aug 2024

ASVspoof 5: Crowdsourced Speech Data, Deepfakes, and Adversarial Attacks at Scale

Xin Wang

...

267

156

16 Aug 2024

FLEURS-R: A Restored Multilingual Speech Corpus for Generation TasksInterspeech (Interspeech), 2024

Min Ma

Yuma Koizumi

232

12 Aug 2024

Speech-MASSIVE: A Multilingual Speech Dataset for SLU and BeyondInterspeech (Interspeech), 2024

332

07 Aug 2024

Towards scalable efficient on-device ASR with transfer learning

212

23 Jul 2024

Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning

Shuai Wang

Zheng-Shou Chen

Kong Aik Lee

Yan-min Qian

Haizhou Li

374

21 Jul 2024

Framework for Curating Speech Datasets and Evaluating ASR Systems: A Case Study for Polish

Mohamed Allam

279

18 Jul 2024

Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation

Xuyuan Li

...

Yuancheng Wang

Kai Chen

Pengyuan Zhang

Zhizheng Wu

272

205

07 Jul 2024

Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

Ye Bai

Jingping Chen

Jitong Chen

Wei Chen

Zhuo Chen

...

Yang Zhang

Yijie Zheng

403

05 Jul 2024

Probing the Feasibility of Multilingual Speaker Anonymization

Sarina Meyer

Florian Lux

Ngoc Thang Vu

265

03 Jul 2024

Towards Robust Speech Representation Learning for Thousands of Languages

William Chen

Wangyou Zhang

Yifan Peng

Xinjian Li

Jinchuan Tian

Jiatong Shi

Xuankai Chang

Soumi Maiti

Karen Livescu

Shinji Watanabe

ELM

415

30 Jun 2024

MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research

Ke Ding

Guanglu Wan

237

26 Jun 2024

Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment

Paarth Neekhara

Shehzeen Samarah Hussain

Subhankar Ghosh

264

25 Jun 2024

One-Class Learning with Adaptive Centroid Shift for Audio Deepfake Detection

Hyun Myung Kim

Kangwook Jang

Hoirin Kim

193

24 Jun 2024

Speech Analysis of Language Varieties in Italy

Moreno La Quatra

Alkis Koudounas

Elena Baralis

Sabato Marco Siniscalchi

258

22 Jun 2024

Articulatory Encodec: Coding Speech through Vocal Tract KinematicsIEEE Journal on Selected Topics in Signal Processing (JSTSP), 2024

Cheol Jun Cho

Peter Wu

Tejas S. Prabhune

Dhruv Agarwal

Gopala K. Anumanchipalli

353

18 Jun 2024

GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement

...

606

17 Jun 2024

Diffusion Synthesizer for Efficient Multilingual Speech to Speech TranslationInterspeech (Interspeech), 2024

Nameer Hirschkind

Xiao Yu

Joseph Liu

Eloi DuBois

...

184

14 Jun 2024

UniAudio 1.5: Large Language Model-driven Audio Codec is A Few-shot Audio Task LearnerNeural Information Processing Systems (NeurIPS), 2024

Dongchao Yang

Yuanyuan Wang

Xixin Wu

Helen Meng

AuLLM

229

14 Jun 2024

Simul-Whisper: Attention-Guided Streaming Whisper with Truncation DetectionInterspeech (Interspeech), 2024

308

14 Jun 2024

Multi-Modal Retrieval For Large Language Model Based Speech RecognitionAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

J. Kolehmainen

Aditya Gourav

Prashanth Gurunath Shivakumar

297

13 Jun 2024

On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models

Jinchuan Tian

Yifan Peng

William Chen

Kwanghee Choi

Karen Livescu

Shinji Watanabe

203

13 Jun 2024

An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios

Xin Wang

...

Jianwu Dang

183

13 Jun 2024

Meta Learning Text-to-Speech Synthesis in over 7000 Languages

294

10 Jun 2024

mHuBERT-147: A Compact Multilingual HuBERT Model

545

10 Jun 2024

Exploring the Benefits of Tokenization of Discrete Acoustic UnitsInterspeech (Interspeech), 2024

Avihu Dekel

Raul Fernandez

255

08 Jun 2024

LoRA-Whisper: Parameter-Efficient and Extensible Multilingual ASRInterspeech (Interspeech), 2024

Zheshu Song

Jianheng Zhuo

Yifan Yang

Ziyang Ma

Shixiong Zhang

Xie Chen

221

07 Jun 2024

SimpleSpeech: Towards Simple and Efficient Text-to-Speech with Scalar Latent Transformer Diffusion Models

442

04 Jun 2024

ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control

...

566

03 Jun 2024

YODAS: Youtube-Oriented Dataset for Audio and Speech

Shinji Watanabe

460

02 Jun 2024

Deep Learning for Assessment of Oral Reading Fluency

Mithilesh Vaidya

Binaya Kumar Sahoo

Preeti Rao

167

29 May 2024

RepAugment: Input-Agnostic Representation-Level Augmentation for Respiratory Sound ClassificationAnnual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), 2024

228

05 May 2024

ESC: Efficient Speech Coding with Cross-Scale Residual Vector Quantized Transformers

Yuzhe Gu

Enmao Diao

326

30 Apr 2024

Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices

196

24 Apr 2024