Wasserstein GAN and Waveform Loss-based Acoustic Model Training for
Multi-speaker Text-to-Speech Synthesis Systems Using a WaveNet Vocoder

Wasserstein GAN and Waveform Loss-based Acoustic Model Training for Multi-speaker Text-to-Speech Synthesis Systems Using a WaveNet Vocoder

31 July 2018

Junichi Yamagishi

Nobuaki Minematsu

ArXiv (abs)PDF HTML

Papers citing "Wasserstein GAN and Waveform Loss-based Acoustic Model Training for Multi-speaker Text-to-Speech Synthesis Systems Using a WaveNet Vocoder"

14 / 14 papers shown

Title
HiFi-WaveGAN: Generative Adversarial Network with Auxiliary Spectrogram-Phase Loss for High-Fidelity Singing Voice Generation Chunhui Wang Chang Zeng Jun Chen Xingji He 90 7 0 23 Oct 2022
Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech Yusuke Nakai Yuki Saito K. Udagawa Hiroshi Saruwatari AAML 85 1 0 26 Sep 2022
FREGAN : an application of generative adversarial networks in enhancing the frame rate of videos Rishik Mishra Neeraj Gupta Nitya Shukla 75 0 0 01 Nov 2021
VAW-GAN for Disentanglement and Recomposition of Emotional Elements in Speech Kun Zhou Berrak Sisman Haizhou Li DRL 109 42 0 03 Nov 2020
Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with CycleGAN Zongyang Du Kun Zhou Berrak Sisman Haizhou Li 80 8 0 11 Aug 2020
An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning Berrak Sisman Junichi Yamagishi Simon King Haizhou Li BDL 139 329 0 09 Aug 2020
NAUTILUS: a Versatile Voice Cloning System Hieu-Thi Luong Junichi Yamagishi 100 53 0 22 May 2020
Conditional Spoken Digit Generation with StyleGAN Kasperi Palkama Lauri Juvela Alexander Ilin GAN 61 10 0 28 Apr 2020
Deep Representation Learning in Speech Processing: Challenges, Recent Advances, and Future Trends S. Latif R. Rana Sara Khalifa Raja Jurdak Junaid Qadir Björn W. Schuller AI4TS 96 82 0 02 Jan 2020
DNN-based Speaker Embedding Using Subjective Inter-speaker Similarity for Multi-speaker Modeling in Speech Synthesis Yuki Saito Shinnosuke Takamichi Hiroshi Saruwatari 40 10 0 19 Jul 2019
Probability density distillation with generative adversarial networks for high-quality parallel waveform generation Ryuichi Yamamoto Eunwoo Song Jae-Min Kim 70 55 0 09 Apr 2019
WGANSing: A Multi-Voice Singing Voice Synthesizer Based on the Wasserstein-GAN Pritish Chandna Merlijn Blaauw J. Bonada E. Gómez 93 62 0 26 Mar 2019
Waveform generation for text-to-speech synthesis using pitch-synchronous multi-scale generative adversarial networks Lauri Juvela Bajibabu Bollepalli Junichi Yamagishi P. Alku 66 23 0 30 Oct 2018
ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech Ming-Yu Liu Kainan Peng Jitong Chen 114 347 0 19 Jul 2018