Papers citing 'Librispeech Transducer Model with Internal Language Model Prior Correction'

Title
OrdMoE: Preference Alignment via Hierarchical Expert Group Ranking in Multimodal Mixture-of-Experts LLMs Yuting Gao Weihao Chen L. xilinx Wang Ruihan Xu Q. Guo MoE 32 0 0 24 Nov 2025
Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation Inclusion AI Bowen Ma Cheng Zou C. Yan Chunxiang Jin ... Zhiqiang Fang Zhihao Qiu Ziyuan Huang Zizheng Yang Z. He MLLM MoE VLM 230 2 0 28 Oct 2025
Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation C. Yan Chunxiang Jin Dawei Huang Haibing Yu Han Peng ... Yongjie Lyu Z. He Zhihao Qiu Zhiqiang Fang Ziyuan Huang AuLLM 257 2 0 26 Oct 2025
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 454 12 0 26 Feb 2025
Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Chien-Chun Wang Li-Wei Chen Cheng-Kang Chou Hung-Shin Lee Berlin Chen Hsin-Min Wang 194 1 0 19 Sep 2024
Effective internal language model training and fusion for factorized transducer modelIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Jinxi Guo Niko Moritz Yingyi Ma Frank Seide Chunyang Wu Jay Mahadeokar Ozlem Kalinli Christian Fuegen Michael Seltzer 189 4 0 02 Apr 2024
Decoder-only Architecture for Speech Recognition with CTC Prompts and Text Data Augmentation E. Tsunoo Hayato Futami Yosuke Kashiwagi Siddhant Arora Shinji Watanabe VLM AuLLM RALM 178 11 0 16 Sep 2023
Chunked Attention-based Encoder-Decoder Model for Streaming Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 Mohammad Zeineldeen Albert Zeyer Ralf Schluter Hermann Ney AuLLM 221 7 0 15 Sep 2023
Hybrid Attention-based Encoder-decoder Model for Efficient Language Model AdaptationSpoken Language Technology Workshop (SLT), 2023 Shaoshi Ling Guoli Ye Rui Zhao Yifan Gong VLM 162 2 0 14 Sep 2023
Improving Language Model Integration for Neural Machine TranslationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Christian Herold Yingbo Gao Mohammad Zeineldeen Hermann Ney 141 3 0 08 Jun 2023
End-to-End Speech Recognition: A SurveyIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2023 Rohit Prabhavalkar Takaaki Hori Tara N. Sainath Ralf Schluter Shinji Watanabe VLM 236 233 0 03 Mar 2023
JEIT: Joint End-to-End Model and Internal Language Model Training for Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 Zhong Meng Weiran Wang Rohit Prabhavalkar Tara N. Sainath Tongzhou Chen Ehsan Variani Yu Zhang Yue Liu Andrew Rosenberg Bhuvana Ramabhadran AuLLM VLM 195 12 0 16 Feb 2023
Internal Language Model Estimation based Adaptive Language Model Fusion for Domain AdaptationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022 Rao Ma Xiaobo Wu Jin Qiu Yanan Qin Haihua Xu Peihao Wu Zejun Ma 150 3 0 02 Nov 2022
Modular Hybrid Autoregressive TransducerSpoken Language Technology Workshop (SLT), 2022 Zhong Meng Tongzhou Chen Rohit Prabhavalkar Yu Zhang Gary Wang ... Bhuvana Ramabhadran Wenjie Huang Ehsan Variani Yinghui Huang Pedro J. Moreno 157 27 0 31 Oct 2022
AutoLV: Automatic Lecture Video GeneratorInternational Conference on Information Photonics (ICIP), 2022 Wen Wang Yang Song Sanjay Jha VGen 179 3 0 19 Sep 2022
Internal Language Model Estimation based Language Model Fusion for Cross-Domain Code-Switching Speech Recognition Yizhou Peng Yufei Liu Jicheng Zhang Haihua Xu Yi He Hao-Ming Huang Chng Eng Siong 108 11 0 09 Jul 2022
Residual Language Model for End-to-end Speech RecognitionInterspeech (Interspeech), 2022 E. Tsunoo Yosuke Kashiwagi Chaitanya Narisetty Shinji Watanabe 111 11 0 15 Jun 2022
Domain Adaptation of low-resource Target-Domain models using well-trained ASR Conformer ModelsSpoken Language Technology Workshop (SLT), 2022 Vrunda N. Sukhadia S. Umesh 242 8 0 18 Feb 2022
Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASRInterspeech (Interspeech), 2022 Yufei Liu Rao Ma Haihua Xu Yi He Zejun Ma Weibin Zhang 116 15 0 26 Jan 2022
A Study of Transducer based End-to-End ASR with ESPnet: Architecture, Auxiliary Loss and Decoding StrategiesAutomatic Speech Recognition & Understanding (ASRU), 2021 Florian Boyer Yusuke Shinohara Takaaki Ishii Hirofumi Inaguma Shinji Watanabe 216 39 0 14 Jan 2022
PM-MMUT: Boosted Phone-Mask Data Augmentation using Multi-Modeling Unit Training for Phonetic-Reduction-Robust E2E Speech Recognition Guodong Ma Pengfei Hu Nurmemet Yolwas Shen Huang Hao-Ming Huang 225 5 0 13 Dec 2021
Recent Advances in End-to-End Automatic Speech RecognitionAPSIPA Transactions on Signal and Information Processing (TASIP), 2021 Jinyu Li VLM 337 419 0 02 Nov 2021
On Language Model Integration for RNN Transducer based Speech Recognition Wei Zhou Zuoyun Zheng Ralf Schluter Hermann Ney 237 27 0 13 Oct 2021
Back from the future: bidirectional CTC decoding using future information in speech recognition Namkyu Jung Geon-min Kim Han-Gyu Kim 199 3 0 07 Oct 2021
Internal Language Model Adaptation with Text-Only Data for End-to-End Speech Recognition Zhong Meng Yashesh Gaur Naoyuki Kanda Jinyu Li Xie Chen Yu Wu Yifan Gong AuLLM 137 34 0 06 Oct 2021
Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition ArchitecturesAutomatic Speech Recognition & Understanding (ASRU), 2021 Nick Rossenbach Mohammad Zeineldeen Benedikt Hilmes Ralf Schluter Hermann Ney 154 12 0 12 Apr 2021