Advancing Acoustic-to-Word CTC Model

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018

15 March 2018

Papers citing "Advancing Acoustic-to-Word CTC Model"

50 / 58 papers shown

Title
Target word activity detector: An approach to obtain ASR word boundaries without lexiconIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 S. Sivasankaran Eric Sun Jinyu Li Yan-ping Huang Jing Pan 135 0 0 20 Sep 2024
Improving Large-scale Deep Biasing with Phoneme Features and Text-only Data in Streaming TransducerAutomatic Speech Recognition & Understanding (ASRU), 2023 Jin Qiu Lu Huang Boyu Li Jun Zhang Lu Lu Zejun Ma 259 7 0 15 Nov 2023
Research on an improved Conformer end-to-end Speech Recognition Model with R-Drop Structure Weidong Ji Shijie Zan Guohui Zhou Xu Wang SyDa 162 1 0 14 Jun 2023
Text-only Domain Adaptation using Unified Speech-Text Representation in TransducerInterspeech (Interspeech), 2023 Lu Huang Yangqiu Song Jun Zhang Lu Lu Zejun Ma 207 4 0 07 Jun 2023
Perception and Semantic Aware Regularization for Sequential Confidence CalibrationComputer Vision and Pattern Recognition (CVPR), 2023 Zhenghua Peng Yuanmao Luo Tianshui Chen Keke Xu Shuangping Huang AI4TS 229 3 0 31 May 2023
Building Accurate Low Latency ASR for Streaming Voice SearchAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Abhinav Goyal Nikesh Garera 110 2 0 29 May 2023
SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal ConvolutionIEEE Signal Processing Letters (SPL), 2022 Fangyuan Wang Bo Xu Bo Xu 304 0 0 21 Nov 2022
Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR systemInterspeech (Interspeech), 2022 Li Li Dongxing Xu Haoran Wei Yanhua Long 254 3 0 03 Nov 2022
Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASRInternational Conference on Neural Information Processing (ICONIP), 2022 Fangyuan Wang Bo Xu 133 5 0 29 Mar 2022
Recent Advances in End-to-End Automatic Speech RecognitionAPSIPA Transactions on Signal and Information Processing (TASIP), 2021 Jinyu Li VLM 382 423 0 02 Nov 2021
Have best of both worlds: two-pass hybrid and E2E cascading framework for speech recognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021 Guoli Ye V. Mazalov Jinyu Li Jiawei Liu 168 9 0 10 Oct 2021
Internal Language Model Adaptation with Text-Only Data for End-to-End Speech Recognition Zhong Meng Yashesh Gaur Naoyuki Kanda Jinyu Li Xie Chen Yu Wu Yifan Gong AuLLM 197 34 0 06 Oct 2021
Factorized Neural Transducer for Efficient Language Model AdaptationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021 Xie Chen Zhong Meng S. Parthasarathy Jinyu Li 408 44 0 27 Sep 2021
Minimum Word Error Rate Training with Language Model Fusion for End-to-End Speech RecognitionInterspeech (Interspeech), 2021 Zhong Meng Yu-Huan Wu Naoyuki Kanda Liang Lu Xie Chen Guoli Ye Eric Sun Jinyu Li Jiawei Liu MoMe 145 22 0 04 Jun 2021
On Addressing Practical Challenges for RNN-TransducerAutomatic Speech Recognition & Understanding (ASRU), 2021 Rui Zhao Jian Xue Jinyu Li Wenning Wei Lei He Jiawei Liu 229 33 0 27 Apr 2021
Internal Language Model Training for Domain-Adaptive End-to-End Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021 Zhong Meng Naoyuki Kanda Yashesh Gaur S. Parthasarathy Eric Sun Liang Lu Xie Chen Jinyu Li Jiawei Liu AuLLM 196 55 0 02 Feb 2021
Streaming end-to-end multi-talker speech recognitionIEEE Signal Processing Letters (IEEE SPL), 2020 Liang Lu Naoyuki Kanda Jinyu Li Jiawei Liu 223 52 0 26 Nov 2020
Exploring End-to-End Multi-channel ASR with Bias Information for Meeting Transcription Xiaofei Wang Naoyuki Kanda Yashesh Gaur Zhuo Chen Zhong Meng Takuya Yoshioka 157 14 0 05 Nov 2020
Internal Language Model Estimation for Domain-Adaptive End-to-End Speech Recognition Zhong Meng S. Parthasarathy Eric Sun Yashesh Gaur Naoyuki Kanda Liang Lu Xie Chen Rui Zhao Jinyu Li Jiawei Liu AuLLM 174 117 0 03 Nov 2020
Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset Xie Chen Yu-Huan Wu Zhenghao Wang Shujie Liu Jinyu Li 239 198 0 22 Oct 2020
Developing RNN-T Models Surpassing High-Performance Hybrid Models with Customization CapabilityInterspeech (Interspeech), 2020 Jinyu Li Rui Zhao Zhong Meng Yanqing Liu Wenning Wei ... V. Mazalov Zhenghao Wang Lei He Sheng Zhao Jiawei Liu 216 112 0 30 Jul 2020
Semi-Supervised Learning with Data Augmentation for End-to-End ASRInterspeech (Interspeech), 2020 F. Weninger F. Mana R. Gemello Jesús Andrés-Ferrer P. Zhan 174 32 0 27 Jul 2020
Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings Bowen Shi Shane Settle Karen Livescu 178 4 0 01 Jul 2020
Learning to Recognize Code-switched Speech Without Forgetting Monolingual Speech Recognition Sanket Shah Basil Abraham M. GurunathReddy Sunayana Sitaram Vikas Joshi 131 19 0 01 Jun 2020
On the Comparison of Popular End-to-End Models for Large Scale Speech RecognitionInterspeech (Interspeech), 2020 Jinyu Li Yu-Huan Wu Yashesh Gaur Chengyi Wang Rui Zhao Shujie Liu 255 142 0 28 May 2020
Exploring Pre-training with Alignments for RNN Transducer based End-to-End Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020 Hu Hu Rui Zhao Jinyu Li Liang Lu Jiawei Liu 160 27 0 01 May 2020
Minimum Latency Training Strategies for Streaming Sequence-to-Sequence ASRIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020 Hirofumi Inaguma Yashesh Gaur Liang Lu Jinyu Li Jiawei Liu AI4TS 226 48 0 10 Apr 2020
Speech Corpus of Ainu Folklore and End-to-end Speech Recognition for Ainu LanguageInternational Conference on Language Resources and Evaluation (LREC), 2020 Kohei Matsuura Sei Ueno Masato Mimura S. Sakai Tatsuya Kawahara CVBM 150 15 0 16 Feb 2020
Accelerating RNN Transducer Inference via One-Step Constrained Beam SearchIEEE Signal Processing Letters (IEEE SPL), 2020 Juntae Kim Yoonhan Lee 130 28 0 10 Feb 2020
Domain Adaptation via Teacher-Student Learning for End-to-End Speech RecognitionAutomatic Speech Recognition & Understanding (ASRU), 2019 Zhong Meng Jinyu Li Yashesh Gaur Jiawei Liu 205 53 0 06 Jan 2020
Character-Aware Attention-Based End-to-End Speech RecognitionAutomatic Speech Recognition & Understanding (ASRU), 2019 Zhong Meng Yashesh Gaur Jinyu Li Jiawei Liu 194 11 0 06 Jan 2020
Speaker-aware speech-transformerAutomatic Speech Recognition & Understanding (ASRU), 2019 Zhiyun Fan Jie Li Shiyu Zhou Bo Xu BDL 196 24 0 02 Jan 2020
Speaker Adaptation for Attention-Based End-to-End Speech RecognitionInterspeech (Interspeech), 2019 Zhong Meng Yashesh Gaur Jinyu Li Jiawei Liu 138 38 0 09 Nov 2019
G2G: TTS-Driven Pronunciation Learning for Graphemic Hybrid ASRIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019 Duc Le T. Koehler Christian Fuegen M. Seltzer 240 18 0 22 Oct 2019
From Senones to Chenones: Tied Context-Dependent Graphemes for Hybrid Speech RecognitionAutomatic Speech Recognition & Understanding (ASRU), 2019 Duc Le Xiaohui Zhang Weiyi Zheng C. Fügen Geoffrey Zweig M. Seltzer 167 64 0 02 Oct 2019
End-to-End Code-Switching ASR for Low-Resourced Language PairsAutomatic Speech Recognition & Understanding (ASRU), 2019 Xianghu Yue Grandee Lee Emre Yilmaz Fang Deng Haizhou Li 148 35 0 27 Sep 2019
Improving RNN Transducer Modeling for End-to-End Speech RecognitionAutomatic Speech Recognition & Understanding (ASRU), 2019 Jinyu Li Rui Zhao Hu Hu Jiawei Liu 170 175 0 26 Sep 2019
Improving OOV Detection and Resolution with External Language Models in Acoustic-to-Word ASRSpoken Language Technology Workshop (SLT), 2018 Hirofumi Inaguma Masato Mimura S. Sakai Tatsuya Kawahara 66 5 0 22 Sep 2019
Listen, Attend, Spell and Adapt: Speaker Adapted Sequence-to-Sequence ASRInterspeech (Interspeech), 2019 F. Weninger Jesús Andrés-Ferrer Xinwei Li P. Zhan AI4TS 121 26 0 08 Jul 2019
Gated Embeddings in End-to-End Speech Recognition for Conversational-Context FusionAnnual Meeting of the Association for Computational Linguistics (ACL), 2019 Suyoun Kim Siddharth Dalmia Florian Metze 164 24 0 27 Jun 2019
Word-level Speech Recognition with a Letter to Word Encoder R. Collobert Awni Y. Hannun Gabriel Synnaeve 3DV 226 4 0 10 Jun 2019
Acoustic-to-Word Models with Conversational Context InformationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2019 Suyoun Kim Florian Metze 119 7 0 21 May 2019
Acoustically Grounded Word Embeddings for Improved Acoustics-to-Word Speech Recognition Shane Settle Kartik Audhkhasi Karen Livescu M. Picheny 154 35 0 29 Mar 2019
Learned In Speech Recognition: Contextual Acoustic Word Embeddings Shruti Palaskar Vikas Raunak Florian Metze 90 17 0 18 Feb 2019
Speaker Adaptation for End-to-End CTC Models Ke Li Jinyu Li Yong Zhao Kshitiz Kumar Jiawei Liu 110 25 0 04 Jan 2019
Advancing Acoustic-to-Word CTC Model with Attention and Mixed-Units Amit Das Jinyu Li Guoli Ye Rui Zhao Jiawei Liu 132 26 0 31 Dec 2018
On the Inductive Bias of Word-Character-Level Multi-Task Learning for Speech Recognition Jan Kremer Lasse Borgholt Lars Maaløe 122 6 0 28 Nov 2018
Bytes are All You Need: End-to-End Multilingual Speech Recognition and Synthesis with BytesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018 Yue Liu Yu Zhang Tara N. Sainath Yonghui Wu William Chan AuLLM 194 135 0 22 Nov 2018
Vectorization of hypotheses and speech for faster beam search in encoder decoder-based speech recognition Hiroshi Seki Takaaki Hori Shinji Watanabe 106 2 0 12 Nov 2018
Pushing the boundaries of audiovisual word recognition using Residual Networks and LSTMs Themos Stafylakis M. H. Khan Georgios Tzimiropoulos VLM 114 60 0 03 Nov 2018