LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech

5 April 2019

Papers citing "LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech"

50 / 617 papers shown

Title
Uformer: A Unet based dilated complex & real dual-path conformer network for simultaneous speech enhancement and dereverberation Yihui Fu Yun Liu Jingdong Li Dawei Luo Shubo Lv Yukai Jv Lei Xie 90 50 0 11 Nov 2021
Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech Sung-Feng Huang Chyi-Jiunn Lin Da-Rong Liu Yi-Chen Chen Hung-yi Lee 126 57 0 07 Nov 2021
Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations Hyeong-Seok Choi Juheon Lee W. Kim Jie Hwan Lee Hoon Heo Kyogu Lee 107 158 0 27 Oct 2021
Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition Ting-Yao Hu Mohammadreza Armandpour A. Shrivastava Jen-Hao Rick Chang H. Koppula Oncel Tuzel SyDa 77 42 0 21 Oct 2021
Neural Dubber: Dubbing for Videos According to Scripts Chenxu Hu Qiao Tian Tingle Li Yuping Wang Yuxuan Wang Hang Zhao DiffM VGen 97 43 0 15 Oct 2021
Toward Degradation-Robust Voice Conversion Chien-yu Huang Kai-Wei Chang Hung-yi Lee 85 9 0 14 Oct 2021
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing Junyi Ao Rui Wang Long Zhou Chengyi Wang Shuo Ren ... Yu Zhang Zhihua Wei Yao Qian Jinyu Li Furu Wei 148 202 0 14 Oct 2021
Environment Aware Text-to-Speech Synthesis Daxin Tan Guangyan Zhang Tan Lee 72 4 0 08 Oct 2021
A study on the efficacy of model pre-training in developing neural text-to-speech system Guangyan Zhang Yichong Leng Daxin Tan Ying Qin Kaitao Song Xu Tan Sheng Zhao Tan Lee 56 2 0 08 Oct 2021
Style Equalization: Unsupervised Learning of Controllable Generative Sequence Models Jen-Hao Rick Chang A. Shrivastava H. Koppula Xiaoshuai Zhang Oncel Tuzel DiffM 101 16 0 06 Oct 2021
Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling Scheme Vadim Popov Ivan Vovk Vladimir Gogoryan Tasnima Sadekova Mikhail Kudinov Jiansheng Wei DiffM BDL 141 136 0 28 Sep 2021
MSR-NV: Neural Vocoder Using Multiple Sampling Rates Kentaro Mitsui Kei Sawada 109 0 0 28 Sep 2021
Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification Bidisha Sharma Maulik C. Madhavi Xuehao Zhou Haizhou Li 47 2 0 28 Sep 2021
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration Chuanxin Tang Chong Luo Zhiyuan Zhao Dacheng Yin Yucheng Zhao Wenjun Zeng 66 9 0 12 Sep 2021
The VoicePrivacy 2020 Challenge: Results and findings N. Tomashenko Xin Wang Emmanuel Vincent J. Patino B. M. L. Srivastava ... Benjamin O’Brien Anais Chanclu J. Bonastre Massimiliano Todisco Mohamed Maouche 147 109 0 01 Sep 2021
Injecting Text in Self-Supervised Speech Pretraining Zhehuai Chen Yu Zhang Andrew Rosenberg Bhuvana Ramabhadran Gary Wang Pedro J. Moreno SSL 88 36 0 27 Aug 2021
One TTS Alignment To Rule Them All Rohan Badlani A. Lancucki Kevin J. Shih Rafael Valle Ming-Yu Liu Bryan Catanzaro 81 85 0 23 Aug 2021
Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System Yukiya Hono Kei Hashimoto Keiichiro Oura Yoshihiko Nankaku K. Tokuda 38 39 0 05 Aug 2021
Daft-Exprt: Cross-Speaker Prosody Transfer on Any Text for Expressive Speech Synthesis Julian Zaïdi Hugo Seuté Benjamin van Niekerk M. Carbonneau 57 21 0 04 Aug 2021
A Survey on Audio Synthesis and Audio-Visual Multimodal Processing Zhaofeng Shi 43 7 0 01 Aug 2021
Practical Attacks on Voice Spoofing Countermeasures Andre Kassis Urs Hengartner AAML 47 15 0 30 Jul 2021
On Prosody Modeling for ASR+TTS based Voice Conversion Wen-Chin Huang Tomoki Hayashi Xinjian Li Shinji Watanabe Tomoki Toda 68 9 0 20 Jul 2021
Translatotron 2: High-quality direct speech-to-speech translation with voice preservation Ye Jia Michelle Tadmor Ramanovich Tal Remez Roi Pomerantz 95 73 0 19 Jul 2021
SoundStream: An End-to-End Neural Audio Codec Neil Zeghidour Alejandro Luebs Ahmed Omran Jan Skoglund Marco Tagliasacchi AI4TS 114 805 0 07 Jul 2021
AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style Yuzi Yan Xu Tan Bohan Li Guangyan Zhang Tao Qin Sheng Zhao Yuan-Chung Shen Weiqiang Zhang Tie-Yan Liu 57 22 0 06 Jul 2021
Location, Location: Enhancing the Evaluation of Text-to-Speech Synthesis Using the Rapid Prosody Transcription Paradigm Elijah Gutierrez Pilar Oplustil Gallegos Catherine Lai 41 4 0 06 Jul 2021
A Survey on Neural Speech Synthesis Xu Tan Tao Qin Frank Soong Tie-Yan Liu AI4TS 129 359 0 29 Jun 2021
GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis Jinhyeok Yang Jaesung Bae Taejun Bak Young-Ik Kim Hoon-Young Cho 131 37 0 29 Jun 2021
RyanSpeech: A Corpus for Conversational Text-to-Speech Synthesis Rohola Zandie Mohammad H. Mahoor Julia Madsen Eshrat S. Emamian 58 25 0 15 Jun 2021
UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation Won Jang D. Lim Jaesam Yoon Bongwan Kim Juntae Kim 108 132 0 15 Jun 2021
HUI-Audio-Corpus-German: A high quality TTS dataset Pascal Puchtler Johannes Wirth René Peinl 59 22 0 11 Jun 2021
Speech BERT Embedding For Improving Prosody in Neural TTS Liping Chen Yan Deng Xi Wang Frank Soong Lei He 75 23 0 08 Jun 2021
Weakly-supervised word-level pronunciation error detection in non-native English speech Daniel Korzekwa Jaime Lorenzo-Trueba Thomas Drugman Shira Calamaro B. Kostek 35 13 0 07 Jun 2021
Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation Dong Min Dong Bok Lee Eunho Yang Sung Ju Hwang 134 175 0 06 Jun 2021
Emotional Voice Conversion: Theory, Databases and ESD Kun Zhou Berrak Sisman Rui Liu Haizhou Li 125 179 0 31 May 2021
Phone-Level Prosody Modelling with GMM-Based MDN for Diverse and Controllable Speech Synthesis Chenpeng Du K. Yu 154 20 0 27 May 2021
FedScale: Benchmarking Model and System Performance of Federated Learning at Scale Fan Lai Yinwei Dai Sanjay Sri Vallabh Singapuram Jiachen Liu Xiangfeng Zhu H. Madhyastha Mosharaf Chowdhury FedML 109 204 0 24 May 2021
SpeechNet: A Universal Modularized Model for Speech Processing Tasks Yi-Chen Chen Po-Han Chi Shu-Wen Yang Kai-Wei Chang Jheng-hao Lin Sung-Feng Huang Da-Rong Liu Chi-Liang Liu Cheng-Kuang Lee Hung-yi Lee MoE 64 17 0 07 May 2021
Review of end-to-end speech synthesis technology based on deep learning Zhaoxi Mu Xinyu Yang Yizhuo Dong AuLLM ALM 91 25 0 20 Apr 2021
AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data Yuzi Yan Xu Tan Bohan Li Tao Qin Sheng Zhao Yuan-Chung Shen Tie-Yan Liu 45 46 0 20 Apr 2021
KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset Saida Mussakhojayeva Aigerim Janaliyeva A. Mirzakhmetov Yerbolat Khassanov H. A. Varol 57 14 0 17 Apr 2021
TalkNet 2: Non-Autoregressive Depth-Wise Separable Convolutional Model for Speech Synthesis with Explicit Pitch and Duration Prediction Stanislav Beliaev Boris Ginsburg 69 9 0 16 Apr 2021
Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures Nick Rossenbach Mohammad Zeineldeen Benedikt Hilmes Ralf Schluter Hermann Ney 61 12 0 12 Apr 2021
Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects Eric Engelhart Mahsa Elyasi Gaurav Bharaj 25 7 0 08 Apr 2021
Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features Mahsa Elyasi Gaurav Bharaj 34 2 0 08 Apr 2021
Exploring Machine Speech Chain for Domain Adaptation and Few-Shot Speaker Adaptation Fengpeng Yue Yan Deng Lei He Tom Ko 54 8 0 08 Apr 2021
SC-GlowTTS: an Efficient Zero-Shot Multi-Speaker Text-To-Speech Model Edresson Casanova C. Shulby Eren Golge Nicolas Müller F. S. Oliveira Arnaldo Cândido Júnior A. S. Soares S. Aluísio M. Ponti 63 100 0 02 Apr 2021
Assem-VC: Realistic Voice Conversion by Assembling Modern Speech Synthesis Techniques Kang-Wook Kim Seung-won Park Junhyeok Lee Myun-chul Joe 63 28 0 02 Apr 2021
Variable-rate discrete representation learning Sander Dieleman C. Nash Jesse Engel Karen Simonyan BDL DRL 82 24 0 10 Mar 2021
AdaSpeech: Adaptive Text to Speech for Custom Voice Mingjian Chen Xu Tan Bohan Li Yanqing Liu Tao Qin Sheng Zhao Tie-Yan Liu VLM DiffM 90 192 0 01 Mar 2021