YODAS: Youtube-Oriented Dataset for Audio and Speech

2 June 2024

Shinji Watanabe

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "YODAS: Youtube-Oriented Dataset for Audio and Speech"

28 / 28 papers shown

SeaLLMs-Audio: Large Audio-Language Models for Southeast Asia

329

03 Nov 2025

NaturalVoices: A Large-Scale, Spontaneous and Emotional Podcast Dataset for Voice Conversion

Zongyang Du

Shreeram Suresh Chandra

146

31 Oct 2025

Extending Audio Context for Long-Form Understanding in Large Audio-Language Models

Yuatyong Chaichana

Pittawat Taveekitworachai

Warit Sirichotedumrong

Potsawee Manakul

Kunat Pipatanakul

AuLLM

155

17 Oct 2025

Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

Thanapol Popit

Natthapath Rungseesiripak

Monthol Charattrakool

Saksorn Ruangtanusak

05 Oct 2025

EuroSpeech: A Multilingual Speech Corpus

143

01 Oct 2025

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

132

26 Sep 2025

WolBanking77: Wolof Banking Speech Intent Classification Dataset

217

23 Sep 2025

BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Supervised Speech Recognition

133

18 Sep 2025

CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset

...

144

17 Sep 2025

OLMoASR: Open Models and Data for Training Robust Speech Recognition Models

151

28 Aug 2025

CAMÕES: A Comprehensive Automatic Speech Recognition Benchmark for European Portuguese

...

123

27 Aug 2025

MiDashengLM: Efficient Audio Understanding with General Audio Captions

422

06 Aug 2025

Whilter: A Whisper-based Data Filter for "In-the-Wild" Speech Corpora Using Utterance-level Multi-Task Classification

211

29 Jul 2025

GLAP: General contrastive audio-text pretraining across domains and languages

217

12 Jun 2025

Charting the Landscape of African NLP: Mapping Progress and Shaping the Road Ahead

Jesujoba Oluwadara Alabi

Michael A. Hedderich

David Ifeoluwa Adelani

Dietrich Klakow

483

27 May 2025

Loquacious Set: 25,000 Hours of Transcribed and Diverse English Speech Recognition Data for Research and Commercial Use

144

27 May 2025

TEDI: Trustworthy and Ethical Dataset Indicators to Analyze and Compare Dataset Documentation

341

23 May 2025

Granary: Speech Recognition and Translation Dataset in 25 European Languages

...

250

19 May 2025

Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages

306

26 Mar 2025

Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech GenerationIEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2025

...

365

27 Jan 2025

Distilling an End-to-End Voice Assistant Without Instruction Training Data

Diyi Yang

327

03 Oct 2024

FruitsMusic: A Real-World Corpus of Japanese Idol-Group SongsInternational Society for Music Information Retrieval Conference (ISMIR), 2024

Satoru Fukayama

178

19 Sep 2024

Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models

Potsawee Manakul

Guangzhi Sun

Warit Sirichotedumrong

Kasima Tharnpipitchai

Kunat Pipatanakul

AuLLM

386

17 Sep 2024

Enhancing Large Language Model-based Speech Recognition by Contextualization for Rare and Ambiguous Words

Kento Nozawa

Takashi Masuko

Toru Taniguchi

207

15 Aug 2024

Consent in Crisis: The Rapid Decline of the AI Data Commons

...

346

20 Jul 2024

Towards Robust Speech Representation Learning for Thousands of Languages

William Chen

Wangyou Zhang

Yifan Peng

Xinjian Li

Jinchuan Tian

Jiatong Shi

Xuankai Chang

Soumi Maiti

Karen Livescu

Shinji Watanabe

ELM

331

30 Jun 2024

GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement

...

515

17 Jun 2024

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer

...

Jiatong Shi

Shinji Watanabe

310

30 Jan 2024