Title
FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms Atul Shree Harshith Jupuru 87 0 0 10 Oct 2025
Unified Learnable 2D Convolutional Feature Extraction for ASR Peter Vieting Benedikt Hilmes Ralf Schluter Hermann Ney SSL 129 0 0 12 Sep 2025
FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities Lilit Grigoryan Vladimir Bataev Nikolay Karpov A. Andrusenko Vitaly Lavrukhin Boris Ginsburg 125 1 0 10 Aug 2025
Analyzing the Importance of Blank for CTC-Based Knowledge Distillation Benedikt Hilmes Nick Rossenbach Ralf Schluter 204 0 0 02 Jun 2025
PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models Alejandro Velez-Arce Marinka Zitnik 204 1 0 08 May 2025
LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific TransliterationAAAI Conference on Artificial Intelligence (AAAI), 2024 Sangmin Lee Woo-Jin Chung Hong-Goo Kang Hong-Goo Kang 370 0 0 19 Dec 2024
Augmenting Automatic Speech Recognition Models with Disfluency DetectionSpoken Language Technology Workshop (SLT), 2024 Robin Amann Zhaolin Li Barbara Bruno Jan Niehues 260 3 0 16 Sep 2024
What happens to diffusion model likelihood when your model is conditional? Mattias Cross Anton Ragni DiffM 281 0 0 10 Sep 2024
On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition Nick Rossenbach Ralf Schluter S. Sakti 164 4 0 31 Jul 2024
Byte Pair Encoding Is All You Need For Automatic Bengali Speech Recognition Ahnaf Mozib Samin 163 0 0 28 Jan 2024
GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech Recognition Daniel Galvez Tim Kaldewey 209 4 0 08 Nov 2023
TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorchAutomatic Speech Recognition & Understanding (ASRU), 2023 Jeff Hwang Moto Hira Caroline Chen Xiaohui Zhang Zhaoheng Ni ... Yumeng Tao Robin Scheibler Samuele Cornell Sean Kim Stavros Petridis 208 35 0 27 Oct 2023
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition Andrew Rouditchenko R. Collobert Tatiana Likhomanenko VLM 178 4 0 29 Sep 2023
Transcribing Educational Videos Using Whisper: A preliminary study on using AI for transcribing educational videos Ashwin Rao 189 8 0 04 Jul 2023
Exploration on HuBERT with Multiple ResolutionsInterspeech (Interspeech), 2023 Jiatong Shi Yun Tang Hirofumi Inaguma Hongyu Gong J. Pino Shinji Watanabe 312 11 0 01 Jun 2023
RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech RecognitionInterspeech (Interspeech), 2023 Wei Zhou Eugen Beck Simon Berger Ralf Schluter Hermann Ney VLM 145 7 0 28 May 2023
Scaling Speech Technology to 1,000+ LanguagesJournal of machine learning research (JMLR), 2023 Vineel Pratap Andros Tjandra Bowen Shi Paden Tomasello Arun Babu ... Yossi Adi Xiaohui Zhang Wei-Ning Hsu Alexis Conneau Michael Auli VLM 321 510 0 22 May 2023
Unsupervised ASR via Cross-Lingual Pseudo-Labeling Tatiana Likhomanenko Loren Lugosch R. Collobert 227 1 0 19 May 2023
The Framework Tax: Disparities Between Inference Efficiency in NLP Research and DeploymentConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Jared Fernandez Jacob Kahn Clara Na Yonatan Bisk Emma Strubell FedML 287 13 0 13 Feb 2023
Leveraging supplementary text data to kick-start automatic speech recognition system development with limited transcriptions Nay San Martijn Bartelds Blaine Billings Ella de Falco Hendi Feriza Johan Safri Wawan Sahrozi Ben Foley Bradley McDonnell Dan Jurafsky 118 10 0 09 Feb 2023
EURO: ESPnet Unsupervised ASR Open-source ToolkitIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022 Dongji Gao Jiatong Shi Shun-Po Chuang Leibny Paola García-Perera Hung-yi Lee Shinji Watanabe Sanjeev Khudanpur 197 10 0 30 Nov 2022
Blank Collapse: Compressing CTC emission for the faster decodingInterspeech (Interspeech), 2022 Minkyu Jung Ohhyeok Kwon S. Seo Soonshin Seo 191 3 0 31 Oct 2022
Multilingual Zero Resource Speech Recognition Base on Self-Supervise Pre-Trained Acoustic ModelsInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2022 Haoyu Wang Weiqiang Zhang Hongbin Suo Yulong Wan 144 1 0 13 Oct 2022
Pseudo-Labeling for Massively Multilingual Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021 Loren Lugosch Tatiana Likhomanenko Gabriel Synnaeve R. Collobert VLM 242 33 0 30 Oct 2021