Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining

Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining

30 January 2023

Shinji Watanabe

Shinnosuke Takamichi

Hiroshi Saruwatari

Papers citing "Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining"

12 / 12 papers shown

Title
SupertonicTTS: Towards Highly Scalable and Efficient Text-to-Speech System H. Kim Jinhyeok Yang Yechan Yu Seunghun Ji Jacob Morton Frederik Bous Joon Byun Juheon Lee 49 0 0 29 Mar 2025
Zero-Shot Text-to-Speech as Golden Speech Generator: A Systematic Framework and its Applicability in Automatic Pronunciation Assessment Tien-Hong Lo Meng-Ting Tsai Berlin Chen 25 0 0 11 Sep 2024
PRESENT: Zero-Shot Text-to-Prosody Control Perry Lam Huayun Zhang Nancy F. Chen Berrak Sisman Dorien Herremans 38 0 0 13 Aug 2024
Leveraging Parameter-Efficient Transfer Learning for Multi-Lingual Text-to-Speech Adaptation Yingting Li Ambuj Mehrish Bryan Chew Bo Cheng Soujanya Poria 27 0 0 25 Jun 2024
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios Cheng Gong Erica Cooper Xin Wang Chunyu Qiang Mengzhe Geng ... Jianwu Dang Marc Tessier Aidan Pine Korin Richmond Junichi Yamagishi 30 2 0 13 Jun 2024
Extending Multilingual Speech Synthesis to 100+ Languages without Transcribed Data Takaaki Saeki Gary Wang Nobuyuki Morioka Isaac Elias Kyle Kastner ... Andrew Rosenberg Bhuvana Ramabhadran Heiga Zen Francoise Beaufays Hadar Shemtov 23 13 0 29 Feb 2024
Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by Self-Supervised Representation Mixing and Embedding Initialization Wei-Ping Huang Sung-Feng Huang Hung-yi Lee 27 0 0 23 Jan 2024
ZMM-TTS: Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations Cheng Gong Xin Wang Erica Cooper Dan Wells Longbiao Wang Jianwu Dang Korin Richmond Junichi Yamagishi 19 20 0 22 Dec 2023
Many-to-Many Spoken Language Translation via Unified Speech and Text Representation Learning with Unit-to-Unit Translation Minsu Kim J. Choi Dahun Kim Y. Ro 33 12 0 03 Aug 2023
Scaling Speech Technology to 1,000+ Languages Vineel Pratap Andros Tjandra Bowen Shi Paden Tomasello Arun Babu ... Yossi Adi Xiaohui Zhang Wei-Ning Hsu Alexis Conneau Michael Auli VLM 73 297 0 22 May 2023
Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech Takaaki Saeki Heiga Zen Zhehuai Chen Nobuyuki Morioka Gary Wang Yu Zhang Ankur Bapna Andrew Rosenberg Bhuvana Ramabhadran 61 19 0 27 Oct 2022
ESPnet2-TTS: Extending the Edge of TTS Research Tomoki Hayashi Ryuichi Yamamoto Takenori Yoshimura Peter Wu Jiatong Shi Takaaki Saeki Yooncheol Ju Yusuke Yasuda Shinnosuke Takamichi Shinji Watanabe VLM 42 60 0 15 Oct 2021