v1v2 (latest)

Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning

9 July 2019

Andrew Rosenberg

Bhuvana Ramabhadran

ArXiv (abs)PDF HTML

Papers citing "Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning"

46 / 96 papers shown

Title
Heterogeneous Target Speech Separation Hyunjae Cho Wonbin Jung Junhyeok Lee Paris Smaragdis Sanghyun Woo 92 26 0 07 Apr 2022
Self-supervised learning for robust voice cloning Konstantinos Klapsas Nikolaos Ellinas Karolos Nikitaras G. Vamvoukakis Panos Kakoulidis ... S. Raptis June Sig Sung Gunu Jho Aimilios Chalamandaris Pirros Tsiakoulis SSL 77 6 0 07 Apr 2022
Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis Yixuan Zhou Changhe Song Xiang Li Lu Zhang Zhiyong Wu Yanyao Bian Dan Su Helen Meng 131 23 0 03 Apr 2022
Data-augmented cross-lingual synthesis in a teacher-student framework M. D. Korte Jaebok Kim A. Kunikoshi Adaeze Adigwe E. Klabbers 54 0 0 31 Mar 2022
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses Zewang Zhang Yibin Zheng Xinhui Li Li Lu 116 17 0 21 Mar 2022
Improving Cross-lingual Speech Synthesis with Triplet Training Scheme Jianhao Ye Hongbin Zhou Zhiba Su Wendi He Kaimeng Ren Lin Li Heng Lu 44 4 0 22 Feb 2022
Cross-Lingual Text-to-Speech Using Multi-Task Learning and Speaker Classifier Joint Training J. Yang Lei He 87 11 0 20 Jan 2022
CVSS Corpus and Massively Multilingual Speech-to-Speech Translation Yeting Jia Michelle Tadmor Ramanovich Quan Wang Heiga Zen SLR 94 70 0 11 Jan 2022
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone Edresson Casanova Julian Weber C. Shulby Arnaldo Cândido Júnior Eren Golge M. Ponti 244 415 0 04 Dec 2021
Improved Prosodic Clustering for Multispeaker and Speaker-independent Phoneme-level Prosody Control Myrsini Christidou Alexandra Vioni Nikolaos Ellinas G. Vamvoukakis K. Markopoulos Panos Kakoulidis June Sig Sung Hyoungmin Park Aimilios Chalamandaris Pirros Tsiakoulis 55 4 0 19 Nov 2021
Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control K. Markopoulos Nikolaos Ellinas Alexandra Vioni Myrsini Christidou Panos Kakoulidis ... Georgia Maniati June Sig Sung Hyoungmin Park Pirros Tsiakoulis Aimilios Chalamandaris 77 2 0 17 Nov 2021
Cross-lingual Low Resource Speaker Adaptation Using Phonological Features Georgia Maniati Nikolaos Ellinas K. Markopoulos G. Vamvoukakis June Sig Sung Hyoungmin Park Aimilios Chalamandaris Pirros Tsiakoulis 54 14 0 17 Nov 2021
Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data Haitong Zhang Yue Lin 47 0 0 14 Oct 2021
Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech Haoyue Zhan Xinyuan Yu Haitong Zhang Yang Zhang Yue Lin 36 5 0 14 Oct 2021
Revisiting IPA-based Cross-lingual Text-to-speech Haitong Zhang Haoyue Zhan Yang Zhang Xinyuan Yu Yue Lin 61 7 0 14 Oct 2021
Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis Mu Yang Shaojin Ding Tianlong Chen Tong Wang Zhangyang Wang CLL 71 5 0 09 Oct 2021
Combining speakers of multiple languages to improve quality of neural voices Javier Latorre Charlotte Bailleul Tuuli H. Morrill Alistair Conkie Y. Stylianou 57 8 0 17 Aug 2021
Daft-Exprt: Cross-Speaker Prosody Transfer on Any Text for Expressive Speech Synthesis Julian Zaïdi Hugo Seuté Benjamin van Niekerk M. Carbonneau 57 21 0 04 Aug 2021
Beyond Voice Identity Conversion: Manipulating Voice Attributes by Adversarial Learning of Structured Disentangled Representations L. Benaroya Nicolas Obin Axel Roebel 33 5 0 26 Jul 2021
Translatotron 2: High-quality direct speech-to-speech translation with voice preservation Ye Jia Michelle Tadmor Ramanovich Tal Remez Roi Pomerantz 97 73 0 19 Jul 2021
A Survey on Neural Speech Synthesis Xu Tan Tao Qin Frank Soong Tie-Yan Liu AI4TS 133 359 0 29 Jun 2021
Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis D. Mohan Qinmin Hu Tian Huey Teh Alexandra Torresquintero C. Wallis Marlene Staib Lorenzo Foglianti Jiameng Gao Simon King 55 17 0 15 Jun 2021
Crossing the Conversational Chasm: A Primer on Natural Language Processing for Multilingual Task-Oriented Dialogue Systems E. Razumovskaia Goran Glavaš Olga Majewska Edoardo Ponti Anna Korhonen Ivan Vulić 180 34 0 17 Apr 2021
Assem-VC: Realistic Voice Conversion by Assembling Modern Speech Synthesis Techniques Kang-Wook Kim Seung-won Park Junhyeok Lee Myun-chul Joe 73 28 0 02 Apr 2021
Multilingual Byte2Speech Models for Scalable Low-resource Speech Synthesis Mutian He Jingzhou Yang Lei He Frank Soong 47 18 0 05 Mar 2021
Towards Natural and Controllable Cross-Lingual Voice Conversion Based on Neural TTS Model and Phonetic Posteriorgram Shengkui Zhao Hao Wang Trung Hieu Nguyen B. Ma 31 20 0 03 Feb 2021
Whispered and Lombard Neural Speech Synthesis Qiong Hu T. Bleisch Petko N. Petkov T. Raitio Erik Marchi V. Lakshminarasimhan 55 14 0 13 Jan 2021
What all do audio transformer models hear? Probing Acoustic Representations for Language Delivery and its Structure Jui Shah Yaman Kumar Singla Changyou Chen R. Shah 93 81 0 02 Jan 2021
Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker Adaptation and Pronunciation Enhancement Hamed Hemati Damian Borth 61 9 0 12 Nov 2020
Large-scale multilingual audio visual dubbing Yi Yang Brendan Shillingford Yannis Assael Miaosen Wang Wendi Liu ... Eren Sezener Luis C. Cobo Misha Denil Y. Aytar Nando de Freitas 70 21 0 06 Nov 2020
Parallel Tacotron: Non-Autoregressive and Controllable TTS Isaac Elias Heiga Zen Jonathan Shen Yu Zhang Ye Jia Ron J. Weiss Yonghui Wu DRL 76 103 0 22 Oct 2020
Unsupervised Representation Learning for Speaker Recognition via Contrastive Equilibrium Learning Sung Hwan Mun Woohyun Kang Min Hyun Han N. Kim SSL 90 21 0 22 Oct 2020
Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion Shengkui Zhao Trung Hieu Nguyen Hao Wang B. Ma 57 25 0 16 Oct 2020
Latent linguistic embedding for cross-lingual text-to-speech and voice conversion Hieu-Thi Luong Junichi Yamagishi 53 5 0 08 Oct 2020
The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS Wen-Chin Huang Tomoki Hayashi Shinji Watanabe Tomoki Toda DRL 76 40 0 06 Oct 2020
Efficient neural speech synthesis for low-resource languages through multilingual modeling M. D. Korte Jaebok Kim E. Klabbers 56 19 0 20 Aug 2020
Phonological Features for 0-shot Multilingual Speech Synthesis Marlene Staib Tian Huey Teh Alexandra Torresquintero D. Mohan Lorenzo Foglianti R. Lenain Jiameng Gao 52 33 0 06 Aug 2020
One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech Tomás Nekvinda Ondrej Dusek 64 57 0 03 Aug 2020
Adversarially Trained Multi-Singer Sequence-To-Sequence Singing Synthesizer Jie Wu Jian Luan 73 26 0 18 Jun 2020
NAUTILUS: a Versatile Voice Cloning System Hieu-Thi Luong Junichi Yamagishi 90 53 0 22 May 2020
Pitchtron: Towards audiobook generation from ordinary people's voices Sunghee Jung Hoi-Rim Kim 34 5 0 21 May 2020
Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario Zexin Cai Yaogen Yang Ming Li 18 9 0 21 May 2020
Investigation of learning abilities on linguistic features in sequence-to-sequence text-to-speech synthesis Yusuke Yasuda Xin Wang Junichi Yamagishi AI4TS 70 31 0 20 May 2020
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation Tao Tu Yuan-Jui Chen Alexander H. Liu Hung-yi Lee 47 7 0 16 May 2020
From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint Zexin Cai Chuxiong Zhang Ming Li 73 42 0 10 May 2020
Generating Multilingual Voices Using Speaker Space Translation Based on Bilingual Speaker Data Soumi Maiti Erik Marchi Alistair Conkie 56 18 0 10 Apr 2020