Single headed attention based sequence-to-sequence model for state-of-the-art results on Switchboard

20 January 2020

Kartik Audhkhasi

Papers citing "Single headed attention based sequence-to-sequence model for state-of-the-art results on Switchboard"

50 / 52 papers shown

Title
Iterative Shallow Fusion of Backward Language Model for End-to-End Speech Recognition A. Ogawa Takafumi Moriya Naoyuki Kamo Naohiro Tawara Marc Delcroix 8 1 0 17 Oct 2023
Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 16 0 0 11 Oct 2023
On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 16 0 0 25 Sep 2023
Chunked Attention-based Encoder-Decoder Model for Streaming Speech Recognition Mohammad Zeineldeen Albert Zeyer Ralf Schluter Hermann Ney AuLLM 21 4 0 15 Sep 2023
Competitive and Resource Efficient Factored Hybrid HMM Systems are Simpler Than You Think Tina Raissi Christoph Luscher Moritz Gunz Ralf Schluter Hermann Ney BDL 12 3 0 15 Jun 2023
End-to-End Speech Recognition: A Survey Rohit Prabhavalkar Takaaki Hori Tara N. Sainath Ralf Schluter Shinji Watanabe VLM 21 148 0 03 Mar 2023
Confidence Score Based Speaker Adaptation of Conformer Speech Recognition Systems Jiajun Deng Xurong Xie Tianzi Wang Mingyu Cui Boyang Xue Zengrui Jin Guinan Li Shujie Hu Xunying Liu 26 5 0 15 Feb 2023
Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 22 4 0 07 Dec 2022
Unsupervised Model-based speaker adaptation of end-to-end lattice-free MMI model for speech recognition Xurong Xie Xunying Liu Hui Chen Hongan Wang 17 1 0 17 Nov 2022
Monotonic segmental attention for automatic speech recognition Albert Zeyer Robin Schmitt Wei Zhou Ralf Schluter Hermann Ney 13 8 0 26 Oct 2022
Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and Understanding Yifan Peng Siddharth Dalmia Ian Lane Shinji Watanabe 19 142 0 06 Jul 2022
Improving the Training Recipe for a Robust Conformer-based Hybrid Model Mohammad Zeineldeen Jingjing Xu Christoph Luscher Ralf Schluter Hermann Ney 28 18 0 26 Jun 2022
Confidence Score Based Conformer Speaker Adaptation for Speech Recognition Jiajun Deng Xurong Xie Tianzi Wang Mingyu Cui Boyang Xue Zengrui Jin Mengzhe Geng Guinan Li Xunying Liu Helen M. Meng 17 13 0 24 Jun 2022
Towards Green ASR: Lossless 4-bit Quantization of a Hybrid TDNN System on the 300-hr Switchboard Corpus Junhao Xu Shoukang Hu Xunying Liu Helen M. Meng MQ 12 5 0 23 Jun 2022
Two-pass Decoding and Cross-adaptation Based System Combination of End-to-end Conformer and Hybrid TDNN ASR Systems Mingyu Cui Jiajun Deng Shoukang Hu Xurong Xie Tianzi Wang Shujie Hu Mengzhe Geng Boyang Xue Xunying Liu Helen M. Meng 28 9 0 23 Jun 2022
Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization A. Fasoli Chia-Yu Chen Mauricio Serrano Swagath Venkataramani G. Saon Xiaodong Cui Brian Kingsbury K. Gopalakrishnan MQ 16 6 0 16 Jun 2022
LegoNN: Building Modular Encoder-Decoder Models Siddharth Dalmia Dmytro Okhonko M. Lewis Sergey Edunov Shinji Watanabe Florian Metze Luke Zettlemoyer Abdel-rahman Mohamed AuLLM MoE 16 13 0 07 Jun 2022
Efficient Training of Neural Transducer for Speech Recognition Wei Zhou Wilfried Michel Ralf Schluter Hermann Ney AI4TS 14 22 0 22 Apr 2022
Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in End-to-End Speech-to-Intent Systems Vishal Sunder Eric Fosler-Lussier Samuel Thomas H. Kuo Brian Kingsbury 21 7 0 11 Apr 2022
Effect and Analysis of Large-scale Language Model Rescoring on Competitive ASR Systems Takuma Udagawa Masayuki Suzuki Gakuto Kurata N. Itoh G. Saon 34 23 0 01 Apr 2022
Improving End-to-End Models for Set Prediction in Spoken Language Understanding H. Kuo Zoltán Tüske Samuel Thomas Brian Kingsbury G. Saon 16 0 0 28 Jan 2022
Improving Factored Hybrid HMM Acoustic Modeling without State Tying Tina Raissi Eugen Beck Ralf Schluter Hermann Ney 16 5 0 24 Jan 2022
Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks Shou-Yong Hu Xurong Xie Mingyu Cui Jiajun Deng Shansong Liu Jianwei Yu Mengzhe Geng Xunying Liu H. Meng 26 26 0 08 Jan 2022
Robust Self-Supervised Audio-Visual Speech Recognition Bowen Shi Wei-Ning Hsu Abdel-rahman Mohamed 24 90 0 05 Jan 2022
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition Junhao Xu Jianwei Yu Shoukang Hu Xunying Liu H. Meng MQ 17 13 0 29 Nov 2021
Conformer-based Hybrid ASR System for Switchboard Dataset Mohammad Zeineldeen Jingjing Xu Christoph Luscher Wilfried Michel Alexander Gerstenberger Ralf Schluter Hermann Ney 22 24 0 05 Nov 2021
On Language Model Integration for RNN Transducer based Speech Recognition Wei Zhou Zuoyun Zheng Ralf Schluter Hermann Ney 24 22 0 13 Oct 2021
ChannelAugment: Improving generalization of multi-channel ASR by training with input channel randomization M. Gaudesi F. Weninger D. Sharma P. Zhan AAML 19 1 0 23 Sep 2021
Dual-Encoder Architecture with Encoder Selection for Joint Close-Talk and Far-Talk Speech Recognition F. Weninger M. Gaudesi Ralf Leibold R. Gemello P. Zhan 21 4 0 17 Sep 2021
4-bit Quantization of LSTM-based Speech Recognition Models A. Fasoli Chia-Yu Chen Mauricio Serrano Xiao Sun Naigang Wang ... Xiaodong Cui Brian Kingsbury Wei Zhang Zoltán Tüske K. Gopalakrishnan MQ 23 21 0 27 Aug 2021
Greenformers: Improving Computation and Memory Efficiency in Transformer Models via Low-Rank Approximation Samuel Cahyawijaya 26 12 0 24 Aug 2021
Reducing Exposure Bias in Training Recurrent Neural Network Transducers Xiaodong Cui Brian Kingsbury G. Saon David Haws Zoltán Tüske 13 5 0 24 Aug 2021
Overcoming Domain Mismatch in Low Resource Sequence-to-Sequence ASR Models using Hybrid Generated Pseudotranscripts Chak-Fai Li Francis Keith William Hartmann M. Snover O. Kimball 17 4 0 14 Jun 2021
On the limit of English conversational speech recognition Zoltán Tüske G. Saon Brian Kingsbury 19 50 0 03 May 2021
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers Takaaki Hori Niko Moritz Chiori Hori Jonathan Le Roux 22 34 0 19 Apr 2021
Acoustic Data-Driven Subword Modeling for End-to-End Speech Recognition Wei Zhou Mohammad Zeineldeen Zuoyun Zheng Ralf Schluter Hermann Ney 25 14 0 19 Apr 2021
Equivalence of Segmental and Neural Transducer Modeling: A Proof of Concept Wei Zhou Albert Zeyer André Merboldt Ralf Schluter Hermann Ney 11 6 0 13 Apr 2021
Investigating Methods to Improve Language Model Integration for Attention-based Encoder-Decoder ASR Models Mohammad Zeineldeen Aleksandr Glushko Wilfried Michel Albert Zeyer Ralf Schluter Hermann Ney AuLLM 6 39 0 12 Apr 2021
Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures Nick Rossenbach Mohammad Zeineldeen Benedikt Hilmes Ralf Schluter Hermann Ney 23 12 0 12 Apr 2021
Towards Consistent Hybrid HMM Acoustic Modeling Tina Raissi Eugen Beck Ralf Schluter Hermann Ney 9 5 0 06 Apr 2021
A study of latent monotonic attention variants Albert Zeyer Ralf Schluter Hermann Ney 13 5 0 30 Mar 2021
Residual Energy-Based Models for End-to-End Speech Recognition Qiujia Li Yu Zhang Bo-wen Li Liangliang Cao P. Woodland 23 13 0 25 Mar 2021
Advancing RNN Transducer Technology for Speech Recognition G. Saon Zoltan Tueske Daniel Bolaños Brian Kingsbury 23 86 0 17 Mar 2021
End-to-End Dereverberation, Beamforming, and Speech Recognition with Improved Numerical Stability and Advanced Frontend Wangyou Zhang Christoph Boeddeker Shinji Watanabe Tomohiro Nakatani Marc Delcroix K. Kinoshita Tsubasa Ochiai Naoyuki Kamo Reinhold Haeb-Umbach Y. Qian 6 32 0 23 Feb 2021
Bayesian Learning for Deep Neural Network Adaptation Xurong Xie Xunying Liu Tan Lee Lan Wang BDL 19 20 0 14 Dec 2020
Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition Wei Zhou Simon Berger Ralf Schluter Hermann Ney 8 33 0 30 Oct 2020
Super-Human Performance in Online Low-latency Recognition of Conversational Speech T. Nguyen S. Stueker A. Waibel BDL 9 36 0 07 Oct 2020
End-to-End Spoken Language Understanding Without Full Transcripts H. Kuo Zoltán Tüske Samuel Thomas Yinghui Huang Kartik Audhkhasi Brian Kingsbury Gakuto Kurata Zvi Kons R. Hoory Luis A. Lastras AuLLM 10 26 0 30 Sep 2020
Semi-Supervised Learning with Data Augmentation for End-to-End ASR F. Weninger F. Mana R. Gemello Jesús Andrés-Ferrer P. Zhan 23 30 0 27 Jul 2020
A systematic comparison of grapheme-based vs. phoneme-based label units for encoder-decoder-attention models Mohammad Zeineldeen Albert Zeyer Wei Zhou T. Ng Ralf Schluter Hermann Ney 6 2 0 19 May 2020