Speaker Generation

7 November 2021

Papers citing "Speaker Generation"

22 / 22 papers shown

Title
TTSOps: A Closed-Loop Corpus Optimization Framework for Training Multi-Speaker TTS Models from Dark Data Kentaro Seki Shinnosuke Takamichi Takaaki Saeki Hiroshi Saruwatari 38 0 0 18 Jun 2025
An Attribute Interpolation Method in Speech Synthesis by Model Merging Masato Murata Koichi Miyazaki Tomoki Koriyama MoMe 115 6 0 30 Jun 2024
Building speech corpus with diverse voice characteristics for its prompt-based representation Aya Watanabe Shinnosuke Takamichi Yuki Saito Wataru Nakata Detai Xin Hiroshi Saruwatari 65 1 0 20 Mar 2024
VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech Synthesis Wei-wei Lin Chenhang He Man-Wai Mak Jiachen Lian Kong Aik Lee DiffM 67 0 0 01 Mar 2024
Creating New Voices using Normalizing Flows Piotr Bilinski Thomas Merritt Abdelhamid Ezzerg Kamil Pokora Sebastian Cygert K. Yanagisawa Roberto Barra-Chicote Daniel Korzekwa 62 16 0 22 Dec 2023
PromptSpeaker: Speaker Generation Based on Text Descriptions Yongmao Zhang Guanghou Liu Yinjiao Lei Yunlin Chen Hao Yin Lei Xie Zhifei Li 72 11 0 08 Oct 2023
VoiceLens: Controllable Speaker Generation and Editing with Flow Yao Shi Ming Li BDL 63 0 0 25 Sep 2023
Coco-Nut: Corpus of Japanese Utterance and Voice Characteristics Description for Prompt-based Control Aya Watanabe Shinnosuke Takamichi Yuki Saito Wataru Nakata Detai Xin Hiroshi Saruwatari 57 11 0 24 Sep 2023
PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech Using Natural Language Descriptions Reo Shimizu Ryuichi Yamamoto Masaya Kawamura Yuma Shirahata Hironori Doi Tatsuya Komatsu Kentaro Tachibana DiffM 95 25 0 15 Sep 2023
A Review of Differentiable Digital Signal Processing for Music & Speech Synthesis B. Hayes Jordie Shier Gyorgy Fazekas Andrew Mcpherson C. Saitis 83 25 0 29 Aug 2023
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator Vladimir Bataev Roman Korostik Evgeny Shabalin Vitaly Lavrukhin Boris Ginsburg VLM 85 15 0 27 Feb 2023
Evaluating and reducing the distance between synthetic and real speech distributions Christoph Minixhofer Ondˇrej Klejch P. Bell 82 8 0 29 Nov 2022
NANSY++: Unified Voice Synthesis with Neural Analysis and Synthesis Hyeong-Seok Choi Jinhyeok Yang Juheon Lee Hyeongju Kim 85 46 0 17 Nov 2022
Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered Speech Xin Zhang Iván Vallés-Pérez A. Stolcke Chengzhu Yu J. Droppo Olabanji Shonibare Roberto Barra-Chicote Venkatesh Ravichandran 84 8 0 04 Nov 2022
Generating Multilingual Gender-Ambiguous Text-to-Speech Voices K. Markopoulos Georgia Maniati G. Vamvoukakis Nikolaos Ellinas Georgios Vardaxoglou ... Gunu Jho Inchul Hwang Aimilios Chalamandaris Pirros Tsiakoulis S. Raptis 83 1 0 01 Nov 2022
Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection Kentaro Seki Shinnosuke Takamichi Takaaki Saeki Hiroshi Saruwatari 95 8 0 26 Oct 2022
Mid-attribute speaker generation using optimal-transport-based interpolation of Gaussian mixture models Aya Watanabe Shinnosuke Takamichi Yuki Saito Detai Xin Hiroshi Saruwatari 69 3 0 18 Oct 2022
Can we use Common Voice to train a Multi-Speaker TTS system? Sewade Ogun Vincent Colotte Emmanuel Vincent 83 10 0 12 Oct 2022
Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech Yusuke Nakai Yuki Saito K. Udagawa Hiroshi Saruwatari AAML 85 1 0 26 Sep 2022
R-MelNet: Reduced Mel-Spectral Modeling for Neural TTS Kyle Kastner Aaron Courville 57 0 0 30 Jun 2022
Self-supervised learning for robust voice cloning Konstantinos Klapsas Nikolaos Ellinas Karolos Nikitaras G. Vamvoukakis Panos Kakoulidis ... S. Raptis June Sig Sung Gunu Jho Aimilios Chalamandaris Pirros Tsiakoulis SSL 84 6 0 07 Apr 2022
VoiceMe: Personalized voice generation in TTS Pol van Rijn Silvan Mertes Dominik Schiller Piotr Dura Hubert Siuzdak Peter M. C. Harrison Elisabeth André Nori Jacoby 54 9 0 29 Mar 2022