The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage

17 November 2021

Maximilian Lam

Papers citing "The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage"

23 / 23 papers shown

Title
Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning Mahmoud Salhab Marwan Elghitany Shameed Sait Syed Sibghat Ullah Mohammad Abusheikh Hasan Abusheikh 49 0 0 16 Apr 2025
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning Prabhat Pandey R. Swaminathan K V Vijay Girish Arunasish Sen Jian Xie Grant P. Strimel Andreas Schwarz 206 0 0 12 Apr 2025
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision Che Liu Yingji Zhang D. Zhang Weijie Zhang Chenggong Gong ... André Freitas Qifan Wang Z. Xu Rongjuncheng Zhang Yong Dai AuLLM 76 0 0 26 Feb 2025
VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning Yifan Peng Krishna C. Puvvada Zhehuai Chen Piotr .Zelasko He Huang Kunal Dhawan Ke Hu Shinji Watanabe Jagadeesh Balam Boris Ginsburg 64 2 0 23 Oct 2024
HAINAN: Fast and Accurate Transducer for Hybrid-Autoregressive ASR Hainan Xu Travis M. Bartley Vladimir Bataev Boris Ginsburg 231 0 0 03 Oct 2024
Recent Advances in Speech Language Models: A Survey Wenqian Cui Dianzhi Yu Xiaoqi Jiao Ziqiao Meng Guangyan Zhang Qichao Wang Yiwen Guo Irwin King AuLLM 61 17 0 01 Oct 2024
AudioBench: A Universal Benchmark for Audio Large Language Models Bin Wang Xunlong Zou Geyu Lin Shri Kiran Srinivasan Zhuohan Liu Wenyu Zhang Zhengyuan Liu AiTi Aw Nancy F. Chen AuLLM ELM LM&MA 92 23 0 23 Jun 2024
Outlier Reduction with Gated Attention for Improved Post-training Quantization in Large Sequence-to-sequence Speech Foundation Models Dominik Wagner Ilja Baumann Korbinian Riedhammer Tobias Bocklet MQ 43 1 0 16 Jun 2024
LanSER: Language-Model Supported Speech Emotion Recognition Taesik Gong Joshua Belanich Krishna Somandepalli Arsha Nagrani B. Eoff Brendan Jou 33 10 0 07 Sep 2023
Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM Eliya Nachmani Alon Levkovitch Roy Hirsch Julián Salazar Chulayutsh Asawaroengchai Soroosh Mariooryad Ehud Rivlin RJ Skerry-Ryan Michelle Tadmor Ramanovich AuLLM 34 34 0 24 May 2023
Textually Pretrained Speech Language Models Michael Hassid Tal Remez Tu Nguyen Itai Gat Alexis Conneau ... Alexandre Défossez Gabriel Synnaeve Emmanuel Dupoux Roy Schwartz Yossi Adi VLM SyDa 44 54 0 22 May 2023
Zero-Shot End-to-End Spoken Language Understanding via Cross-Modal Selective Self-Training Jianfeng He Julian Salazar Kaisheng Yao Haoqi Li Jason (Jinglun) Cai VLM 17 7 0 22 May 2023
The Grind for Good Data: Understanding ML Practitioners' Struggles and Aspirations in Making Good Data Inha Cha Juhyun Oh Cheul Young Park Jiyoon Han Hwalsuk Lee 34 2 0 28 Nov 2022
Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection Kentaro Seki Shinnosuke Takamichi Takaaki Saeki Hiroshi Saruwatari 25 6 0 26 Oct 2022
TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a Speech Recognition Baseline Chengfei Li Shuhao Deng Yaoping Wang Guangjing Wang Y. Gong Changbin Chen Jinfeng Bai 33 16 0 27 Jun 2022
End-to-End Multi-speaker ASR with Independent Vector Analysis Robin Scheibler Wangyou Zhang Xuankai Chang Shinji Watanabe Y. Qian 24 2 0 01 Apr 2022
Adaptive Sampling Strategies to Construct Equitable Training Datasets William Cai R. Encarnación Bobbie Chern S. Corbett-Davies Miranda Bogen Stevie Bergman Sharad Goel 89 30 0 31 Jan 2022
SPIRAL: Self-supervised Perturbation-Invariant Representation Learning for Speech Pre-Training Wenyong Huang Zhenhe Zhang Y. Yeung Xin Jiang Qun Liu 38 23 0 25 Jan 2022
LSH methods for data deduplication in a Wikipedia artificial dataset Juan Ciro Daniel Galvez Tim Schlippe David Kanter 11 1 0 10 Dec 2021
Lhotse: a speech data representation library for the modern deep learning ecosystem Willem Hagemann Daniel Povey Jan "Yenda" Trmal Sanjeev Khudanpur AuLLM AI4TS 33 33 0 25 Oct 2021
Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development Mingkuan Liu Chi Zhang Hua Xing C. Feng Mon-Chu Chen Judith Bishop Grace Ngapo 30 3 0 01 Sep 2021
Earnings-21: A Practical Benchmark for ASR in the Wild Miguel Rio Natalie Delworth Ryan Westerman Michelle Huang Nishchal Bhandari Joseph Palakapilly Quinten McNamara Joshua Dong Piotr Żelasko Miguel Jetté 68 47 0 22 Apr 2021
pyannote.audio: neural building blocks for speaker diarization H. Bredin Ruiqing Yin Juan Manuel Coria G. Gelly Pavel Korshunov Marvin Lavechin D. Fustes Hadrien Titeux Wassim Bouaziz Marie-Philippe Gill 202 313 0 04 Nov 2019