FastSpeech 2: Fast and High-Quality End-to-End Text to Speech

8 June 2020

Xu Tan

Zhou Zhao

Papers citing "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech"

50 / 754 papers shown

Title
Speaker Adaption with Intuitive Prosodic Features for Statistical Parametric Speech Synthesis Pengyu Cheng Zhenhua Ling 14 3 0 02 Mar 2022
MuSE-SVS: Multi-Singer Emotional Singing Voice Synthesizer that Controls Emotional Intensity Sungjae Kim Y.E. Kim Jewoo Jun Injung Kim 29 13 0 02 Mar 2022
Measuring the Impact of Individual Domain Factors in Self-Supervised Pre-Training Ramon Sanabria Wei-Ning Hsu Alexei Baevski Michael Auli 19 7 0 01 Mar 2022
Revisiting Over-Smoothness in Text to Speech Yi Ren Xu Tan Tao Qin Zhou Zhao Tie-Yan Liu 67 61 0 26 Feb 2022
Improving Cross-lingual Speech Synthesis with Triplet Training Scheme Jianhao Ye Hongbin Zhou Zhiba Su Wendi He Kaimeng Ren Lin Li Heng Lu 21 4 0 22 Feb 2022
nnSpeech: Speaker-Guided Conditional Variational Autoencoder for Zero-shot Multi-speaker Text-to-Speech Bo Zhao Xulong Zhang Jianzong Wang Ning Cheng Jing Xiao DiffM 10 22 0 22 Feb 2022
ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech Yi Ren Ming Lei Zhiying Huang Shi-Rui Zhang Qian Chen Zhijie Yan Zhou Zhao 32 41 0 16 Feb 2022
textless-lib: a Library for Textless Spoken Language Processing Eugene Kharitonov Jade Copet Kushal Lakhotia Tu Nguyen Paden Tomasello ... A. Elkahky Wei-Ning Hsu Abdel-rahman Mohamed Emmanuel Dupoux Yossi Adi 25 32 0 15 Feb 2022
Unsupervised word-level prosody tagging for controllable speech synthesis Yiwei Guo Chenpeng Du Kai Yu 13 15 0 15 Feb 2022
BiFSMN: Binary Neural Network for Keyword Spotting Haotong Qin Xunyuan Ma Yifu Ding X. Li Yang Zhang Yao Tian Zejun Ma Jie Luo Xianglong Liu MQ 31 11 0 14 Feb 2022
DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs Songxiang Liu Dan Su Dong Yu DiffM 68 65 0 28 Jan 2022
Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric Speech Recognition M. Soleymanpour Michael T. Johnson Rahim Soleymanpour J. Berry 27 27 0 27 Jan 2022
The MSXF TTS System for ICASSP 2022 ADD Challenge Chunyong Yang Pengfei Liu Yanli Chen Hongbin Wang Min Liu 13 0 0 27 Jan 2022
J-MAC: Japanese multi-speaker audiobook corpus for speech synthesis Shinnosuke Takamichi Wataru Nakata Naoko Tanji Hiroshi Saruwatari AuLLM 25 6 0 26 Jan 2022
Polyphone disambiguation and accent prediction using pre-trained language models in Japanese TTS front-end Rem Hida Masaki Hamada Chie Kamada E. Tsunoo Toshiyuki Sekiya Toshiyuki Kumakura 11 5 0 24 Jan 2022
MHTTS: Fast multi-head text-to-speech for spontaneous speech with imperfect transcription Dabiao Ma Yitong Zhang Meng Li Feng Ye 9 1 0 19 Jan 2022
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis Yu Wang Xinsheng Wang Pengcheng Zhu Jie Wu Hanzhao Li Heyang Xue Yongmao Zhang Lei Xie Mengxiao Bi 25 95 0 19 Jan 2022
MR-SVS: Singing Voice Synthesis with Multi-Reference Encoder Shoutong Wang Jinglin Liu Yi Ren Zhen Wang Changliang Xu Zhou Zhao 17 7 0 11 Jan 2022
Audio representations for deep learning in sound synthesis: A review Anastasia Natsiou Seán O'Leary AI4TS 19 18 0 07 Jan 2022
Speech-to-SQL: Towards Speech-driven SQL Query Generation From Natural Language Question Yuanfeng Song Raymond Chi-Wing Wong Xuefang Zhao Di Jiang 31 13 0 04 Jan 2022
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus Rongjie Huang Feiyang Chen Yi Ren Jinglin Liu Chenye Cui Zhou Zhao 28 98 0 20 Dec 2021
MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical Modeling Yusong Wu Ethan Manilow Yi Deng Rigel Swavely Kyle Kastner Tim Cooijmans Aaron Courville Cheng-Zhi Anna Huang Jesse Engel 29 44 0 17 Dec 2021
Textless Speech-to-Speech Translation on Real Data Ann Lee Hongyu Gong Paul-Ambroise Duquenne Holger Schwenk Peng-Jen Chen ... Sravya Popuri Yossi Adi J. Pino Jiatao Gu Wei-Ning Hsu 28 142 0 15 Dec 2021
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone Edresson Casanova Julian Weber C. Shulby Arnaldo Cândido Júnior Eren Golge M. Ponti 182 378 0 04 Dec 2021
V2C: Visual Voice Cloning Qi Chen Yuanqing Li Yuankai Qi Jiaqiu Zhou Mingkui Tan Qi Wu VGen 33 23 0 25 Nov 2021
Guided-TTS: A Diffusion Model for Text-to-Speech via Classifier Guidance Heeseung Kim Sungwon Kim Sungroh Yoon DiffM BDL 19 107 0 23 Nov 2021
More than Words: In-the-Wild Visually-Driven Prosody for Text-to-Speech Michael Hassid Michelle Tadmor Ramanovich Brendan Shillingford Miaosen Wang Ye Jia Tal Remez DiffM 17 16 0 19 Nov 2021
Differentiable Wavetable Synthesis Siyuan Shan Lamtharn Hantrakul Jitong Chen Matt Avent David Trevelyan 31 20 0 19 Nov 2021
Transformer-S2A: Robust and Efficient Speech-to-Animation Liyang Chen Zhiyong Wu Jun Ling Runnan Li Xu Tan Sheng Zhao 27 18 0 18 Nov 2021
Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing Linguistic Information and Noisy Data Zhu Li Yuqing Zhang Mengxi Nie Ming Yan Mengnan He Ruixiong Zhang Caixia Gong 11 3 0 15 Nov 2021
Textless Speech Emotion Conversion using Discrete and Decomposed Representations Felix Kreuk Adam Polyak Jade Copet Eugene Kharitonov Tu Nguyen M. Rivière Wei-Ning Hsu Abdel-rahman Mohamed Emmanuel Dupoux Yossi Adi 25 29 0 14 Nov 2021
Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech Sung-Feng Huang Chyi-Jiunn Lin Da-Rong Liu Yi-Chen Chen Hung-yi Lee 8 56 0 07 Nov 2021
Emotional Prosody Control for Speech Generation S. Sivaprasad Saiteja Kosgi Vineet Gandhi 10 17 0 07 Nov 2021
WaveFake: A Data Set to Facilitate Audio Deepfake Detection Joel Frank Lea Schonherr DiffM 129 123 0 04 Nov 2021
Personalized One-Shot Lipreading for an ALS Patient Bipasha Sen Aditya Agarwal Rudrabha Mukhopadhyay Vinay P. Namboodiri C. V. Jawahar LM&MA 6 3 0 02 Nov 2021
RefineGAN: Universally Generating Waveform Better than Ground Truth with Highly Accurate Pitch and Intensity Responses Shengyuan Xu Wenxiao Zhao Jing Guo 8 12 0 01 Nov 2021
VRAIN-UPV MLLP's system for the Blizzard Challenge 2021 A. P. D. Martos A. Sanchís Alfons Juan-Císcar 11 6 0 29 Oct 2021
DelightfulTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2021 Yanqing Liu Rui Shao G. Wang Kuan Chen Bohan Li P. Yuen Jinzhu Li Lei He Sheng Zhao 32 55 0 25 Oct 2021
Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition Ting-Yao Hu Mohammadreza Armandpour A. Shrivastava Jen-Hao Rick Chang H. Koppula Oncel Tuzel SyDa 52 42 0 21 Oct 2021
FMFCC-A: A Challenging Mandarin Dataset for Synthetic Speech Detection Zhenyu Zhang Yewei Gu Xiaowei Yi Xianfeng Zhao 19 24 0 18 Oct 2021
VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis Yongmao Zhang Jian Cong Heyang Xue Lei Xie Pengcheng Zhu Mengxiao Bi 19 73 0 17 Oct 2021
Intelligent Video Editing: Incorporating Modern Talking Face Generation Algorithms in a Video Editor Anchit Gupta Faizan Farooq Khan Rudrabha Mukhopadhyay Vinay P. Namboodiri C. V. Jawahar CVBM 22 6 0 16 Oct 2021
Direct Simultaneous Speech-to-Speech Translation with Variational Monotonic Multihead Attention Xutai Ma Hongyu Gong Danni Liu Ann Lee Yun Tang Peng-Jen Chen Wei-Ning Hsu P. Koehn J. Pino 54 8 0 15 Oct 2021
Neural Dubber: Dubbing for Videos According to Scripts Chenxu Hu Qiao Tian Tingle Li Yuping Wang Yuxuan Wang Hang Zhao DiffM VGen 36 39 0 15 Oct 2021
From Start to Finish: Latency Reduction Strategies for Incremental Speech Synthesis in Simultaneous Speech-to-Speech Translation Danni Liu Changhan Wang Hongyu Gong Xutai Ma Yun Tang J. Pino 17 4 0 15 Oct 2021
ESPnet2-TTS: Extending the Edge of TTS Research Tomoki Hayashi Ryuichi Yamamoto Takenori Yoshimura Peter Wu Jiatong Shi Takaaki Saeki Yooncheol Ju Yusuke Yasuda Shinnosuke Takamichi Shinji Watanabe VLM 47 60 0 15 Oct 2021
SingGAN: Generative Adversarial Network For High-Fidelity Singing Voice Generation Rongjie Huang Chenye Cui Feiyang Chen Yi Ren Jinglin Liu Zhou Zhao Baoxing Huai N. Yuan GAN 102 62 0 14 Oct 2021
FedSpeech: Federated Text-to-Speech with Continual Learning Ziyue Jiang Yi Ren Ming Lei Zhou Zhao FedML 93 24 0 14 Oct 2021
Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech Haoyue Zhan Xinyuan Yu Haitong Zhang Yang Zhang Yue Lin 16 5 0 14 Oct 2021
Revisiting IPA-based Cross-lingual Text-to-speech Haitong Zhang Haoyue Zhan Yang Zhang Xinyuan Yu Yue Lin 27 6 0 14 Oct 2021