A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech
Synthesis and Editing

A $^3$ T: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing

18 March 2022

Papers citing "A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing"

10 / 10 papers shown

Title
SSR-Speech: Towards Stable, Safe and Robust Zero-shot Text-based Speech Editing and Synthesis Helin Wang Meng Yu Jiarui Hai Chen Chen Yuchen Hu Rilin Chen Najim Dehak Dong Yu 82 3 0 03 Jan 2025
MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation T. Pham Tri Ton Chang D. Yoo 36 3 0 03 Oct 2024
Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models Li-Wei Chen Takuya Higuchi He Bai Ahmed Hussen Abdelaziz Alexander Rudnicky Shinji Watanabe Tatiana Likhomanenko B. Theobald Zakaria Aldeneh 38 0 0 16 Sep 2024
Cross-Utterance Conditioned VAE for Speech Generation Y. Li Cheng Yu Guangzhi Sun Weiqin Zu Zheng Tian ... Wei Pan Chao Zhang Jun Wang Yang Yang Fanglei Sun 11 2 0 08 Sep 2023
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer Xiaofei Wang Manthan Thakker Zhuo Chen Naoyuki Kanda Sefik Emre Eskimez Sanyuan Chen M. Tang Shujie Liu Jinyu Li Takuya Yoshioka 18 79 0 14 Aug 2023
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers Chengyi Wang Sanyuan Chen Yu-Huan Wu Zi-Hua Zhang Long Zhou ... Huaming Wang Jinyu Li Lei He Sheng Zhao Furu Wei 43 639 0 05 Jan 2023
Emotion Selectable End-to-End Text-based Speech Editing Tao Wang Jiangyan Yi Ruibo Fu J. Tao Zhengqi Wen Chu Yuan Zhang 25 2 0 20 Dec 2022
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech Xiaoran Fan Chao Pang Tian Yuan Richard He Bai Renjie Zheng ... Junkun Chen Zeyu Chen Liang Huang Yu Sun Hua-Hong Wu 27 0 0 07 Nov 2022
Better Language Model with Hypernym Class Prediction Richard He Bai Tong Wang Alessandro Sordoni Peng Shi 76 15 0 21 Mar 2022
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Z. Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 204 819 0 12 Jun 2018