Papers citing 'Advancing Acoustic-to-Word CTC Model'

Title
Target word activity detector: An approach to obtain ASR word boundaries without lexiconIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 S. Sivasankaran Eric Sun Jinyu Li Yan-ping Huang Jing Pan 111 0 0 20 Sep 2024
Improving Large-scale Deep Biasing with Phoneme Features and Text-only Data in Streaming TransducerAutomatic Speech Recognition & Understanding (ASRU), 2023 Jin Qiu Lu Huang Boyu Li Jun Zhang Lu Lu Zejun Ma 259 7 0 15 Nov 2023
Research on an improved Conformer end-to-end Speech Recognition Model with R-Drop Structure Weidong Ji Shijie Zan Guohui Zhou Xu Wang SyDa 162 1 0 14 Jun 2023
Text-only Domain Adaptation using Unified Speech-Text Representation in TransducerInterspeech (Interspeech), 2023 Lu Huang Yangqiu Song Jun Zhang Lu Lu Zejun Ma 195 4 0 07 Jun 2023
Perception and Semantic Aware Regularization for Sequential Confidence CalibrationComputer Vision and Pattern Recognition (CVPR), 2023 Zhenghua Peng Yuanmao Luo Tianshui Chen Keke Xu Shuangping Huang AI4TS 193 3 0 31 May 2023
Building Accurate Low Latency ASR for Streaming Voice SearchAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Abhinav Goyal Nikesh Garera 90 2 0 29 May 2023
SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal ConvolutionIEEE Signal Processing Letters (SPL), 2022 Fangyuan Wang Bo Xu Bo Xu 276 0 0 21 Nov 2022
Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR systemInterspeech (Interspeech), 2022 Li Li Dongxing Xu Haoran Wei Yanhua Long 254 3 0 03 Nov 2022
Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASRInternational Conference on Neural Information Processing (ICONIP), 2022 Fangyuan Wang Bo Xu 133 5 0 29 Mar 2022
Recent Advances in End-to-End Automatic Speech RecognitionAPSIPA Transactions on Signal and Information Processing (TASIP), 2021 Jinyu Li VLM 337 419 0 02 Nov 2021
Have best of both worlds: two-pass hybrid and E2E cascading framework for speech recognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021 Guoli Ye V. Mazalov Jinyu Li Jiawei Liu 168 9 0 10 Oct 2021
Internal Language Model Adaptation with Text-Only Data for End-to-End Speech Recognition Zhong Meng Yashesh Gaur Naoyuki Kanda Jinyu Li Xie Chen Yu Wu Yifan Gong AuLLM 137 34 0 06 Oct 2021
Factorized Neural Transducer for Efficient Language Model AdaptationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021 Xie Chen Zhong Meng S. Parthasarathy Jinyu Li 360 44 0 27 Sep 2021
Minimum Word Error Rate Training with Language Model Fusion for End-to-End Speech RecognitionInterspeech (Interspeech), 2021 Zhong Meng Yu-Huan Wu Naoyuki Kanda Liang Lu Xie Chen Guoli Ye Eric Sun Jinyu Li Jiawei Liu MoMe 133 22 0 04 Jun 2021
On Addressing Practical Challenges for RNN-TransducerAutomatic Speech Recognition & Understanding (ASRU), 2021 Rui Zhao Jian Xue Jinyu Li Wenning Wei Lei He Jiawei Liu 209 33 0 27 Apr 2021
Internal Language Model Training for Domain-Adaptive End-to-End Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021 Zhong Meng Naoyuki Kanda Yashesh Gaur S. Parthasarathy Eric Sun Liang Lu Xie Chen Jinyu Li Jiawei Liu AuLLM 196 54 0 02 Feb 2021
Streaming end-to-end multi-talker speech recognitionIEEE Signal Processing Letters (IEEE SPL), 2020 Liang Lu Naoyuki Kanda Jinyu Li Jiawei Liu 187 51 0 26 Nov 2020
Exploring End-to-End Multi-channel ASR with Bias Information for Meeting Transcription Xiaofei Wang Naoyuki Kanda Yashesh Gaur Zhuo Chen Zhong Meng Takuya Yoshioka 149 14 0 05 Nov 2020
Internal Language Model Estimation for Domain-Adaptive End-to-End Speech Recognition Zhong Meng S. Parthasarathy Eric Sun Yashesh Gaur Naoyuki Kanda Liang Lu Xie Chen Rui Zhao Jinyu Li Jiawei Liu AuLLM 174 116 0 03 Nov 2020
Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset Xie Chen Yu-Huan Wu Zhenghao Wang Shujie Liu Jinyu Li 235 196 0 22 Oct 2020
Developing RNN-T Models Surpassing High-Performance Hybrid Models with Customization CapabilityInterspeech (Interspeech), 2020 Jinyu Li Rui Zhao Zhong Meng Yanqing Liu Wenning Wei ... V. Mazalov Zhenghao Wang Lei He Sheng Zhao Jiawei Liu 200 112 0 30 Jul 2020
Semi-Supervised Learning with Data Augmentation for End-to-End ASRInterspeech (Interspeech), 2020 F. Weninger F. Mana R. Gemello Jesús Andrés-Ferrer P. Zhan 146 32 0 27 Jul 2020
Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings Bowen Shi Shane Settle Karen Livescu 170 4 0 01 Jul 2020
Learning to Recognize Code-switched Speech Without Forgetting Monolingual Speech Recognition Sanket Shah Basil Abraham M. GurunathReddy Sunayana Sitaram Vikas Joshi 119 19 0 01 Jun 2020
On the Comparison of Popular End-to-End Models for Large Scale Speech RecognitionInterspeech (Interspeech), 2020 Jinyu Li Yu-Huan Wu Yashesh Gaur Chengyi Wang Rui Zhao Shujie Liu 247 142 0 28 May 2020
Exploring Pre-training with Alignments for RNN Transducer based End-to-End Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020 Hu Hu Rui Zhao Jinyu Li Liang Lu Jiawei Liu 152 27 0 01 May 2020
Minimum Latency Training Strategies for Streaming Sequence-to-Sequence ASRIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020 Hirofumi Inaguma Yashesh Gaur Liang Lu Jinyu Li Jiawei Liu AI4TS 202 48 0 10 Apr 2020
Speech Corpus of Ainu Folklore and End-to-end Speech Recognition for Ainu LanguageInternational Conference on Language Resources and Evaluation (LREC), 2020 Kohei Matsuura Sei Ueno Masato Mimura S. Sakai Tatsuya Kawahara CVBM 146 15 0 16 Feb 2020
Accelerating RNN Transducer Inference via One-Step Constrained Beam SearchIEEE Signal Processing Letters (IEEE SPL), 2020 Juntae Kim Yoonhan Lee 130 28 0 10 Feb 2020
Domain Adaptation via Teacher-Student Learning for End-to-End Speech RecognitionAutomatic Speech Recognition & Understanding (ASRU), 2019 Zhong Meng Jinyu Li Yashesh Gaur Jiawei Liu 189 53 0 06 Jan 2020
Character-Aware Attention-Based End-to-End Speech RecognitionAutomatic Speech Recognition & Understanding (ASRU), 2019 Zhong Meng Yashesh Gaur Jinyu Li Jiawei Liu 166 11 0 06 Jan 2020
Speaker-aware speech-transformerAutomatic Speech Recognition & Understanding (ASRU), 2019 Zhiyun Fan Jie Li Shiyu Zhou Bo Xu BDL 184 24 0 02 Jan 2020
Speaker Adaptation for Attention-Based End-to-End Speech RecognitionInterspeech (Interspeech), 2019 Zhong Meng Yashesh Gaur Jinyu Li Jiawei Liu 114 38 0 09 Nov 2019
G2G: TTS-Driven Pronunciation Learning for Graphemic Hybrid ASRIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019 Duc Le T. Koehler Christian Fuegen M. Seltzer 220 18 0 22 Oct 2019
From Senones to Chenones: Tied Context-Dependent Graphemes for Hybrid Speech RecognitionAutomatic Speech Recognition & Understanding (ASRU), 2019 Duc Le Xiaohui Zhang Weiyi Zheng C. Fügen Geoffrey Zweig M. Seltzer 163 64 0 02 Oct 2019
End-to-End Code-Switching ASR for Low-Resourced Language PairsAutomatic Speech Recognition & Understanding (ASRU), 2019 Xianghu Yue Grandee Lee Emre Yilmaz Fang Deng Haizhou Li 132 35 0 27 Sep 2019
Improving RNN Transducer Modeling for End-to-End Speech RecognitionAutomatic Speech Recognition & Understanding (ASRU), 2019 Jinyu Li Rui Zhao Hu Hu Jiawei Liu 158 175 0 26 Sep 2019
Improving OOV Detection and Resolution with External Language Models in Acoustic-to-Word ASRSpoken Language Technology Workshop (SLT), 2018 Hirofumi Inaguma Masato Mimura S. Sakai Tatsuya Kawahara 66 5 0 22 Sep 2019
Listen, Attend, Spell and Adapt: Speaker Adapted Sequence-to-Sequence ASRInterspeech (Interspeech), 2019 F. Weninger Jesús Andrés-Ferrer Xinwei Li P. Zhan AI4TS 113 26 0 08 Jul 2019
Gated Embeddings in End-to-End Speech Recognition for Conversational-Context FusionAnnual Meeting of the Association for Computational Linguistics (ACL), 2019 Suyoun Kim Siddharth Dalmia Florian Metze 164 24 0 27 Jun 2019
Word-level Speech Recognition with a Letter to Word Encoder R. Collobert Awni Y. Hannun Gabriel Synnaeve 3DV 218 4 0 10 Jun 2019
Acoustic-to-Word Models with Conversational Context InformationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2019 Suyoun Kim Florian Metze 111 7 0 21 May 2019
Acoustically Grounded Word Embeddings for Improved Acoustics-to-Word Speech Recognition Shane Settle Kartik Audhkhasi Karen Livescu M. Picheny 142 35 0 29 Mar 2019
Learned In Speech Recognition: Contextual Acoustic Word Embeddings Shruti Palaskar Vikas Raunak Florian Metze 90 17 0 18 Feb 2019
Speaker Adaptation for End-to-End CTC Models Ke Li Jinyu Li Yong Zhao Kshitiz Kumar Jiawei Liu 102 25 0 04 Jan 2019
Advancing Acoustic-to-Word CTC Model with Attention and Mixed-Units Amit Das Jinyu Li Guoli Ye Rui Zhao Jiawei Liu 124 26 0 31 Dec 2018
On the Inductive Bias of Word-Character-Level Multi-Task Learning for Speech Recognition Jan Kremer Lasse Borgholt Lars Maaløe 118 6 0 28 Nov 2018
Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with BytesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018 Yue Liu Yu Zhang Tara N. Sainath Yonghui Wu William Chan AuLLM 174 134 0 22 Nov 2018
Vectorization of hypotheses and speech for faster beam search in encoder decoder-based speech recognition Hiroshi Seki Takaaki Hori Shinji Watanabe 90 2 0 12 Nov 2018
Pushing the boundaries of audiovisual word recognition using Residual Networks and LSTMs Themos Stafylakis M. H. Khan Georgios Tzimiropoulos VLM 106 60 0 03 Nov 2018