Speech Recognition with Augmented Synthesized Speech

25 September 2019

Andrew Rosenberg

Bhuvana Ramabhadran

Papers citing "Speech Recognition with Augmented Synthesized Speech"

25 / 25 papers shown

Title
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data Haoxin Li Boyang Li CoGe 73 0 0 03 Mar 2025
Generative Data Augmentation Challenge: Synthesis of Room Acoustics for Speaker Distance Estimation Jackie Lin Georg Götz Hermes Sampedro Llopis Haukur Hafsteinsson Steinar Guðjónsson ... Paris Smaragdis Dinesh Manocha John Hershey Trausti Kristjansson Minje Kim 82 2 0 22 Jan 2025
Contrastive Learning from Synthetic Audio Doppelgängers Manuel Cherep Nikhil Singh 40 1 0 09 Jun 2024
The Potential of Neural Speech Synthesis-based Data Augmentation for Personalized Speech Enhancement Anastasia Kuznetsova Aswin Sivaraman Minje Kim 24 3 0 14 Nov 2022
Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation Rao Ma Xiaobo Wu Jin Qiu Yanan Qin Haihua Xu Peihao Wu Zejun Ma 27 2 0 02 Nov 2022
Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation Tsz Kin Lam Shigehiko Schamoni Stefan Riezler VLM 34 8 0 27 Oct 2022
UserLibri: A Dataset for ASR Personalization Using Only Text Theresa Breiner Swaroop Indra Ramaswamy Ehsan Variani Shefali Garg Rajiv Mathews K. Sim Kilol Gupta Mingqing Chen Lara McConnaughey 28 16 0 02 Jul 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 128 349 0 21 May 2022
Neural-FST Class Language Model for End-to-End Speech Recognition A. Bruguier Duc Le Rohit Prabhavalkar Dangna Li Zhe Liu Bo Wang Eun Chang Fuchun Peng Ozlem Kalinli M. Seltzer 15 6 0 28 Jan 2022
Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric Speech Recognition M. Soleymanpour Michael T. Johnson Rahim Soleymanpour J. Berry 27 27 0 27 Jan 2022
Assessing Evaluation Metrics for Speech-to-Speech Translation Elizabeth Salesky Julian Mäder Severin Klinger 24 14 0 26 Oct 2021
Data Incubation -- Synthesizing Missing Data for Handwriting Recognition Jen-Hao Rick Chang Martin Bresler Youssouf Chherawala Adrien Delaye Thomas Deselaers Ryan S. Dixon Oncel Tuzel SyDa 23 2 0 13 Oct 2021
Dynamic Gradient Aggregation for Federated Domain Adaptation Dimitrios Dimitriadis K. Kumatani R. Gmyr Yashesh Gaur Sefik Emre Eskimez FedML 20 5 0 14 Jun 2021
Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures Nick Rossenbach Mohammad Zeineldeen Benedikt Hilmes Ralf Schluter Hermann Ney 25 12 0 12 Apr 2021
Using Synthetic Audio to Improve The Recognition of Out-Of-Vocabulary Words in End-To-End ASR Systems Xianrui Zheng Yulan Liu Deniz Gunceler D. Willett 13 78 0 23 Nov 2020
Deep Shallow Fusion for RNN-T Personalization Duc Le Gil Keren Julian Chan Jay Mahadeokar Christian Fuegen M. Seltzer 21 77 0 16 Nov 2020
A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks Yun Tang J. Pino Changhan Wang Xutai Ma Dmitriy Genzel 20 73 0 21 Oct 2020
Replacing Human Audio with Synthetic Audio for On-device Unspoken Punctuation Prediction Daria Soboleva Ondrej Skopek Márius vSajgalík Victor Cuarbune Felix Weissenberger ... B. Prisacari Daniel Valcarce Justin Lu Rohit Prabhavalkar Balint Miklos 26 9 0 20 Oct 2020
LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition Jin Xu Xu Tan Yi Ren Tao Qin Jian Li Sheng Zhao Tie-Yan Liu VLM 16 90 0 09 Aug 2020
Federated Transfer Learning with Dynamic Gradient Aggregation Dimitrios Dimitriadis K. Kumatani R. Gmyr Yashesh Gaur Sefik Emre Eskimez FedML 11 15 0 06 Aug 2020
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation A. Laptev Roman Korostik A. Svischev A. Andrusenko Ivan Medennikov S. Rybin 14 61 0 14 May 2020
Training Keyword Spotters with Limited and Synthesized Speech Data James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi 16 56 0 31 Jan 2020
G2G: TTS-Driven Pronunciation Learning for Graphemic Hybrid ASR Duc Le T. Koehler Christian Fuegen M. Seltzer 19 16 0 22 Oct 2019
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Z. Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 207 819 0 12 Jun 2018
Listening while Speaking: Speech Chain by Deep Learning Andros Tjandra S. Sakti Satoshi Nakamura AuLLM 118 165 0 16 Jul 2017