Generating Data with Text-to-Speech and Large-Language Models for
Conversational Speech Recognition

Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition

17 August 2024

Samuele Cornell

Jordan Darefsky

Zhiyao Duan

Shinji Watanabe

Papers citing "Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition"

6 / 6 papers shown

Title
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis Zhijun Liu Shuai Wang Sho Inoue Qibing Bai Haizhou Li DiffM 32 15 0 08 Jun 2024
NTT speaker diarization system for CHiME-7: multi-domain, multi-microphone End-to-end and vector clustering diarization Naohiro Tawara Marc Delcroix Atsushi Ando A. Ogawa 28 7 0 22 Sep 2023
Adapting self-supervised models to multi-talker speech recognition using speaker embeddings Zili Huang Desh Raj Leibny Paola García-Perera Sanjeev Khudanpur 73 21 0 01 Nov 2022
Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric Speech Recognition M. Soleymanpour Michael T. Johnson Rahim Soleymanpour J. Berry 19 27 0 27 Jan 2022
Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition Ting-Yao Hu Mohammadreza Armandpour A. Shrivastava Jen-Hao Rick Chang H. Koppula Oncel Tuzel SyDa 47 42 0 21 Oct 2021
End-to-End Neural Speaker Diarization with Self-attention Yusuke Fujita Naoyuki Kanda Shota Horiguchi Yawen Xue Kenji Nagamatsu Shinji Watanabe 166 237 0 13 Sep 2019