Cycle-consistency training for end-to-end speech recognition

2 November 2018

Takaaki Hori

Ramón Fernández Astudillo

Papers citing "Cycle-consistency training for end-to-end speech recognition"

25 / 25 papers shown

Title
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency Mayank Agarwal Ramón Fernández Astudillo Tahira Naseem Subhajit Chaudhury Pavan Kapanipathi Salim Roukos Alexander G. Gray OffRL 24 0 0 31 May 2023
A Deliberation-based Joint Acoustic and Text Decoder S. Mavandadi Tara N. Sainath Ke Hu Zelin Wu 21 7 0 23 Mar 2023
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator Vladimir Bataev Roman Korostik Evgeny Shabalin Vitaly Lavrukhin Boris Ginsburg VLM 38 14 0 27 Feb 2023
Massively Multilingual Shallow Fusion with Large Language Models Ke Hu Tara N. Sainath Bo-wen Li Nan Du Yanping Huang Andrew M. Dai Yu Zhang Rodrigo Cabrera Zhehuai Chen Trevor Strohman 35 13 0 17 Feb 2023
Learning the joint distribution of two sequences using little or no paired data Soroosh Mariooryad Matt Shannon Siyuan Ma Tom Bagby David Kao Daisy Stanton Eric Battenberg RJ Skerry-Ryan 30 2 0 06 Dec 2022
Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation Tsz Kin Lam Shigehiko Schamoni Stefan Riezler VLM 44 8 0 27 Oct 2022
Improving Semi-supervised End-to-end Automatic Speech Recognition using CycleGAN and Inter-domain Losses C. Li Ngoc Thang Vu 21 2 0 20 Oct 2022
JOIST: A Joint Speech and Text Streaming Model For ASR Tara N. Sainath Rohit Prabhavalkar Ankur Bapna Yu Zhang Zhouyuan Huo Zhehuai Chen Bo-wen Li Weiran Wang Trevor Strohman RALM AuLLM 53 35 0 13 Oct 2022
Comparison of Soft and Hard Target RNN-T Distillation for Large-scale ASR DongSeon Hwang K. Sim Yu Zhang Trevor Strohman 19 10 0 11 Oct 2022
Speaker consistency loss and step-wise optimization for semi-supervised joint training of TTS and ASR using unpaired text data Naoki Makishima Satoshi Suzuki Atsushi Ando Ryo Masumura 146 4 0 11 Jul 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 137 352 0 21 May 2022
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition Ye Du Jie Zhang Qiu-shi Zhu Lirong Dai Ming Wu Xin Fang Zhouwang Yang 34 2 0 05 Apr 2022
Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition Ting-Yao Hu Mohammadreza Armandpour A. Shrivastava Jen-Hao Rick Chang H. Koppula Oncel Tuzel SyDa 60 42 0 21 Oct 2021
Injecting Text in Self-Supervised Speech Pretraining Zhehuai Chen Yu Zhang Andrew Rosenberg Bhuvana Ramabhadran Gary Wang Pedro J. Moreno SSL 25 36 0 27 Aug 2021
Multitask Training with Text Data for End-to-End Speech Recognition Peidong Wang Tara N. Sainath Ron J. Weiss 16 27 0 27 Oct 2020
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition Jin Xu Xu Tan Yi Ren Tao Qin Jian Li Sheng Zhao Tie-Yan Liu VLM 18 90 0 09 Aug 2020
Improving Proper Noun Recognition in End-to-End ASR By Customization of the MWER Loss Criterion Cal Peyser Tara N. Sainath Golan Pundak 28 13 0 19 May 2020
GPT-too: A language-model-first approach for AMR-to-text generation Manuel Mager Ramón Fernández Astudillo Tahira Naseem Md Arafat Sultan Young-Suk Lee Radu Florian Salim Roukos 32 99 0 18 May 2020
Large scale weakly and semi-supervised learning for low-resource video ASR Kritika Singh Vimal Manohar Alex Xiao Sergey Edunov Ross B. Girshick Vitaliy Liptchinsky Christian Fuegen Yatharth Saraf Geoffrey Zweig Abdel-rahman Mohamed 31 9 0 16 May 2020
Semi-Supervised Speech Recognition via Local Prior Matching Wei-Ning Hsu Ann Lee Gabriel Synnaeve Awni Y. Hannun SSL 27 31 0 24 Feb 2020
Generating Synthetic Audio Data for Attention-Based Speech Recognition Systems Nick Rossenbach Albert Zeyer Ralf Schluter Hermann Ney 18 83 0 19 Dec 2019
Self-Training for End-to-End Speech Recognition Jacob Kahn Ann Lee Awni Y. Hannun SSL 27 231 0 19 Sep 2019
Semi-supervised Sequence-to-sequence ASR using Unpaired Speech and Text M. Baskar Shinji Watanabe Ramón Fernández Astudillo Takaaki Hori L. Burget J. Černocký 36 41 0 30 Apr 2019
Phasebook and Friends: Leveraging Discrete Representations for Source Separation Jonathan Le Roux Gordon Wichern Shinji Watanabe Andy M. Sarroff J. Hershey 19 76 0 02 Oct 2018
Listening while Speaking: Speech Chain by Deep Learning Andros Tjandra S. Sakti Satoshi Nakamura AuLLM 126 165 0 16 Jul 2017