AdaSpeech: Adaptive Text to Speech for Custom Voice

1 March 2021

Xu Tan

Papers citing "AdaSpeech: Adaptive Text to Speech for Custom Voice"

50 / 121 papers shown

Title
Voice Cloning: Comprehensive Survey Hussam Azzuni Abdulmotaleb El Saddik VLM 39 0 0 01 May 2025
Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing Zhedong Zhang Liang-Sheng Li C. Yan Chunshan Liu A. Hengel Yuankai Qi 85 2 0 15 Mar 2025
Stable-TTS: Stable Speaker-Adaptive Text-to-Speech Synthesis via Prosody Prompting Wooseok Han Minki Kang Changhun Kim Eunho Yang 37 0 0 31 Dec 2024
Continuous Speech Tokens Makes LLMs Robust Multi-Modality Learners Ze Yuan Yanqing Liu Shujie Liu Sheng Zhao AuLLM 74 1 0 06 Dec 2024
The Codec Language Model-based Zero-Shot Spontaneous Style TTS System for CoVoC Challenge 2024 Shuoyi Zhou Yixuan Zhou Weiqing Li Jun Chen Runchuan Ye Weihao Wu Zijian Lin Shun Lei Zhiyong Wu 97 1 0 02 Dec 2024
Mitigating Unauthorized Speech Synthesis for Voice Protection Zhisheng Zhang Qianyi Yang Derui Wang Pengyang Huang Yuxin Cao Kai Ye Jie Hao AAML 19 3 0 28 Oct 2024
Denoising with a Joint-Embedding Predictive Architecture Dengsheng Chen Jie Hu Xiaoming Wei Enhua Wu DiffM 52 2 0 02 Oct 2024
VoiceGuider: Enhancing Out-of-Domain Performance in Parameter-Efficient Speaker-Adaptive Text-to-Speech via Autoguidance Jiheum Yeom Heeseung Kim Jooyoung Choi Che Hyun Lee Nohil Park Sungroh Yoon 26 1 0 24 Sep 2024
User-Driven Voice Generation and Editing through Latent Space Navigation Yusheng Tian Junbin Liu Tan Lee DiffM 39 2 0 30 Aug 2024
Disentangling segmental and prosodic factors to non-native speech comprehensibility Waris Quamer Ricardo Gutierrez-Osuna 32 1 0 20 Aug 2024
dMel: Speech Tokenization made Simple Richard He Bai Tatiana Likhomanenko Ruixiang Zhang Zijin Gu Zakaria Aldeneh Navdeep Jaitly 35 4 0 22 Jul 2024
Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning Shuai Wang Zheng-Shou Chen Kong Aik Lee Yan-min Qian Haizhou Li 37 4 0 21 Jul 2024
ASRRL-TTS: Agile Speaker Representation Reinforcement Learning for Text-to-Speech Speaker Adaptation Ruibo Fu Xin Qi Zhengqi Wen Jianhua Tao Tao Wang ... Xiaopeng Wang Shuchen Shi Yukun Liu Xuefei Liu Shuai Zhang 49 0 0 07 Jul 2024
DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability Hyun Joon Park Jin Sob Kim Wooseok Shin Sung Won Han DiffM 33 2 0 27 Jun 2024
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models Yi Zeng Weiyu Sun Tran Ngoc Huynh Dawn Song Bo Li Ruoxi Jia AAML LLMSV 42 18 0 24 Jun 2024
GLOBE: A High-quality English Corpus with Global Accents for Zero-shot Speaker Adaptive Text-to-Speech Wenbin Wang Yang Song Sanjay Jha 36 5 0 21 Jun 2024
Phoneme Discretized Saliency Maps for Explainable Detection of AI-Generated Voice Shubham Gupta Mirco Ravanelli Pascal Germain Cem Subakan FAtt 37 3 0 14 Jun 2024
Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning Chung-Ming Chien Andros Tjandra Apoorv Vyas Matt Le Bowen Shi Wei-Ning Hsu 32 0 0 10 Jun 2024
ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec Shengpeng Ji Jia-li Zuo Minghui Fang Siqi Zheng Qian Chen ... Ziyue Jiang Hai Huang Xize Cheng Rongjie Huang Zhou Zhao 52 8 0 03 Jun 2024
A Survey of Deep Learning Audio Generation Methods Matej Bozic Marko Horvat VLM MedIm 52 0 0 31 May 2024
Faces that Speak: Jointly Synthesising Talking Face and Speech from Text Youngjoon Jang Ji-Hoon Kim Junseok Ahn Doyeop Kwak Hong-Sun Yang Yooncheol Ju Il-Hwan Kim Byeong-Yeol Kim Joon Son Chung CVBM 29 9 0 16 May 2024
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers Peng Gao Le Zhuo Ziyi Lin Ruoyi Du Xu Luo ... Weicai Ye He Tong Jingwen He Yu Qiao Hongsheng Li VGen 37 83 0 09 May 2024
USAT: A Universal Speaker-Adaptive Text-to-Speech Approach Wenbin Wang Yang Song Sanjay Jha 36 10 0 28 Apr 2024
HyperTTS: Parameter Efficient Adaptation in Text to Speech using Hypernetworks Yingting Li Rishabh Bhardwaj Ambuj Mehrish Bo Cheng Soujanya Poria 38 2 0 06 Apr 2024
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models Zeqian Ju Yuancheng Wang Kai Shen Xu Tan Detai Xin ... Shikun Zhang Jiang Bian Lei He Jinyu Li Sheng Zhao DiffM 43 143 0 05 Mar 2024
MobileSpeech: A Fast and High-Fidelity Framework for Mobile Zero-Shot Text-to-Speech Shengpeng Ji Ziyue Jiang Hanting Wang Jia-li Zuo Zhou Zhao 32 9 0 14 Feb 2024
Low-Resource Cross-Domain Singing Voice Synthesis via Reduced Self-Supervised Speech Representations Panos Kakoulidis Nikolaos Ellinas G. Vamvoukakis Myrsini Christidou Alexandra Vioni ... Junkwang Oh Gunu Jho Inchul Hwang Pirros Tsiakoulis Aimilios Chalamandaris 20 1 0 02 Feb 2024
DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations without Text Alignment Hyoung-Seok Oh Sang-Hoon Lee Deok-Hyun Cho Seong-Whan Lee 39 1 0 16 Jan 2024
Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations Yejin Jeon Yunsu Kim Gary Geunbae Lee 32 2 0 04 Jan 2024
GenCast: Diffusion-based ensemble forecasting for medium-range weather Ilan Price Alvaro Sanchez-Gonzalez Ferran Alet Tom R. Andersson Andrew El-Kadi ... Jacklynn Stott Shakir Mohamed Peter W. Battaglia Rémi R. Lam Matthew Willson 31 109 0 25 Dec 2023
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis Yu Zhang Rongjie Huang Ruiqi Li Jinzheng He Yan Xia Feiyang Chen Xinyu Duan Baoxing Huai Zhou Zhao VLM 18 17 0 17 Dec 2023
Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes Pavel Korshunov Haolin Chen Philip N. Garner S´ebastien Marcel CVBM 43 4 0 29 Nov 2023
HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation of Speech by Hierarchical Variational Inference for Zero-shot Speech Synthesis Sang-Hoon Lee Haram Choi Seung-Bin Kim Seong-Whan Lee BDL 27 31 0 21 Nov 2023
ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis Jungil Kong Junmo Lee Jeongmin Kim Beomjeong Kim Jihoon Park Dohee Kong Changheon Lee Sangjin Kim 23 1 0 20 Nov 2023
Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer Learning Rishabh Jain Peter Corcoran 20 0 0 07 Nov 2023
AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation Liyang Chen Weihong Bao Shunwei Lei Boshi Tang Zhiyong Wu Shiyin Kang Haozhi Huang Helen M. Meng 40 1 0 11 Oct 2023
A Comparative Study of Voice Conversion Models with Large-Scale Speech and Singing Data: The T13 Systems for the Singing Voice Conversion Challenge 2023 Ryuichi Yamamoto Reo Yoneyama Lester Phillip Violeta Wen-Chin Huang T. Toda 19 7 0 08 Oct 2023
Zero-Shot Emotion Transfer For Cross-Lingual Speech Synthesis Yuke Li Xinfa Zhu Yinjiao Lei Hai Li Junhui Liu Danming Xie Lei Xie 33 3 0 06 Oct 2023
CrossSinger: A Cross-Lingual Multi-Singer High-Fidelity Singing Voice Synthesizer Trained on Monolingual Singers Xintong Wang Chang Zeng Jun Chen Chunhui Wang 19 6 0 22 Sep 2023
Improving Language Model-Based Zero-Shot Text-to-Speech Synthesis with Multi-Scale Acoustic Prompts Shunwei Lei Yixuan Zhou Liyang Chen Dan Luo Zhiyong Wu ... Shiyin Kang Tao Jiang Yahui Zhou Yuxing Han Helen M. Meng VLM 33 2 0 21 Sep 2023
PromptTTS 2: Describing and Generating Voices with Text Prompt Yichong Leng Zhifang Guo Kai Shen Xu Tan Zeqian Ju ... Lei He Xiang-Yang Li Sheng Zhao Tao Qin Jiang Bian VLM DiffM 39 40 0 05 Sep 2023
MSM-VC: High-fidelity Source Style Transfer for Non-Parallel Voice Conversion by Multi-scale Style Modeling Zhichao Wang Xinsheng Wang Qicong Xie Tao Li Linfu Xie Qiao Tian Yuping Wang 16 4 0 03 Sep 2023
DiCLET-TTS: Diffusion Model based Cross-lingual Emotion Transfer for Text-to-Speech -- A Study between English and Mandarin Tao Li Chenxu Hu Jian Cong Xinfa Zhu Jingbei Li Qiao Tian Yuping Wang Linfu Xie DiffM 27 8 0 02 Sep 2023
Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech Hyungchan Yoon Changhwan Kim Eunwoo Song Hyun-Wook Yoon Hong-Goo Kang 29 1 0 28 Aug 2023
Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with Disentangled Representations Wen Wang Yang Song S. Jha 32 8 0 24 Aug 2023
Many-to-Many Spoken Language Translation via Unified Speech and Text Representation Learning with Unit-to-Unit Translation Minsu Kim J. Choi Dahun Kim Y. Ro 35 10 0 03 Aug 2023
DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training H. Oh Sang-Hoon Lee Seong-Whan Lee DiffM 15 14 0 31 Jul 2023
When Large Language Models Meet Personalization: Perspectives of Challenges and Opportunities Jin Chen Zheng Liu Xunpeng Huang Chenwang Wu Qi Liu ... Yuxuan Lei Xiaolong Chen Xingmei Wang Defu Lian Enhong Chen ALM 29 110 0 31 Jul 2023
Mega-TTS 2: Boosting Prompting Mechanisms for Zero-Shot Speech Synthesis Ziyue Jiang Jinglin Liu Yi Ren Jinzheng He Zhe Ye ... Pengfei Wei Chunfeng Wang Xiang Yin Zejun Ma Zhou Zhao 33 44 0 14 Jul 2023
EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech Daria Diatlova V. Shutov 26 7 0 28 Jun 2023