Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

11 June 2021

Papers citing "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech"

50 / 491 papers shown

Title
Expressive TTS Driven by Natural Language Prompts Using Few Human Annotations Hanglei Zhang Yiwei Guo Sen Liu Xie Chen Kai Yu 17 0 0 02 Nov 2023
Low-latency Real-time Voice Conversion on CPU Konstantine Sadov Matthew Hutter Asara Near VLM 23 1 0 01 Nov 2023
The IMS Toucan System for the Blizzard Challenge 2023 Florian Lux Julia Koch Sarina Meyer Thomas Bott Nadja Schauffler Pavel Denisov Antje Schweitzer Ngoc Thang Vu 19 6 0 26 Oct 2023
Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech Systems for the MADASR 2023 Challenge Tanel Alumäe Jiaming Kong Daniil Robnikov 14 2 0 26 Oct 2023
Boosting Multi-Speaker Expressive Speech Synthesis with Semi-supervised Contrastive Learning Xinfa Zhu Yuke Li Yinjiao Lei Ning Jiang Guoqing Zhao Lei Xie 23 0 0 26 Oct 2023
Generative Pre-training for Speech with Flow Matching Alexander H. Liu Matt Le Apoorv Vyas Bowen Shi Andros Tjandra Wei-Ning Hsu 19 31 0 25 Oct 2023
DPP-TTS: Diversifying prosodic features of speech via determinantal point processes Seongho Joo Hyukhun Koh Kyomin Jung DiffM 39 0 0 23 Oct 2023
Leveraging Diverse Semantic-based Audio Pretrained Models for Singing Voice Conversion Xueyao Zhang Yicheng Gu Haopeng Chen Zihao Fang Lexiao Zou Junan Zhang Liumeng Xue Jinchao Zhang Jie Zhou Zhizheng Wu DiffM 27 1 0 17 Oct 2023
From Words and Exercises to Wellness: Farsi Chatbot for Self-Attachment Technique Sina Elahimanesh Shayan Salehi Sara Zahedi Movahed Lisa Alazraki Ruoyu Hu Abbas Edalat 24 0 0 13 Oct 2023
On the Relevance of Phoneme Duration Variability of Synthesized Training Data for Automatic Speech Recognition Nick Rossenbach Benedikt Hilmes Ralf Schluter 10 3 0 12 Oct 2023
Enhancing expressivity transfer in textless speech-to-speech translation J. Duret Benjamin O’Brien Yannick Esteve Titouan Parcollet 43 2 0 11 Oct 2023
Few-Shot Spoken Language Understanding via Joint Speech-Text Models Chung-Ming Chien Mingjiamei Zhang Ju-Chieh Chou Karen Livescu 26 3 0 09 Oct 2023
Unified speech and gesture synthesis using flow matching Shivam Mehta Ruibo Tu Simon Alexanderson Jonas Beskow Éva Székely G. Henter 22 3 0 08 Oct 2023
VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023 Yi-Hua Zhou Meng Chen Yi Lei Jihua Zhu Weifeng Zhao 16 5 0 08 Oct 2023
PromptSpeaker: Speaker Generation Based on Text Descriptions Yongmao Zhang Guanghou Liu Yinjiao Lei Yunlin Chen Hao Yin Lei Xie Zhifei Li 25 11 0 08 Oct 2023
Comparative Analysis of Transfer Learning in Deep Learning Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset Ze Liu 17 0 0 08 Oct 2023
DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation Roi Benita Michael Elad Joseph Keshet DiffM 25 7 0 02 Oct 2023
Towards human-like spoken dialogue generation between AI agents from written dialogue Kentaro Mitsui Yukiya Hono Kei Sawada 29 13 0 02 Oct 2023
Low-Resource Self-Supervised Learning with SSL-Enhanced TTS Xin Wang Taein Kwon Wei-Ning Hsu Yossi Adi Tu Nguyen D. Bohus Emmanuel Dupoux Neel Joshi Abdelrahman Mohamed 10 4 0 29 Sep 2023
VoiceLens: Controllable Speaker Generation and Editing with Flow Yao Shi Ming Li BDL 30 1 0 25 Sep 2023
BiSinger: Bilingual Singing Voice Synthesis Huali Zhou Yueqian Lin Yao Shi Peng Sun Ming Li 23 5 0 25 Sep 2023
HiGNN-TTS: Hierarchical Prosody Modeling with Graph Neural Networks for Expressive Long-form TTS Dake Guo Xinfa Zhu Liumeng Xue Tao Li Yuanjun Lv Yuepeng Jiang Linfu Xie 6 1 0 25 Sep 2023
Variational Connectionist Temporal Classification for Order-Preserving Sequence Modeling Zheng Nan T. Dang V. Sethu Beena Ahmed BDL 19 2 0 21 Sep 2023
Improving Language Model-Based Zero-Shot Text-to-Speech Synthesis with Multi-Scale Acoustic Prompts Shunwei Lei Yixuan Zhou Liyang Chen Dan Luo Zhiyong Wu ... Shiyin Kang Tao Jiang Yahui Zhou Yuxing Han Helen M. Meng VLM 33 2 0 21 Sep 2023
SpeechAlign: a Framework for Speech Translation Alignment Evaluation Belen Alastruey Aleix Sant Gerard I. Gállego David Dale Marta R. Costa-jussá AuLLM 25 3 0 20 Sep 2023
Spoofing attack augmentation: can differently-trained attack models improve generalisation? W. Ge Xin Wang Junichi Yamagishi Massimiliano Todisco Nicholas W. D. Evans AAML 30 8 0 18 Sep 2023
PromptVC: Flexible Stylistic Voice Conversion in Latent Space Driven by Natural Language Prompts Jixun Yao Yuguang Yang Yinjiao Lei Ziqian Ning Yanni Hu Y. Pan Jingjing Yin Hongbin Zhou Heng Lu Linfu Xie DiffM 25 19 0 17 Sep 2023
FastGraphTTS: An Ultrafast Syntax-Aware Speech Synthesis Framework Jianzong Wang Xulong Zhang Aolan Sun Ning Cheng Jing Xiao 29 1 0 16 Sep 2023
Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens Minsu Kim J. Choi Soumi Maiti Jeong Hun Yeo Shinji Watanabe Y. Ro VLM 26 6 0 15 Sep 2023
AAS-VC: On the Generalization Ability of Automatic Alignment Search based Non-autoregressive Sequence-to-sequence Voice Conversion Wen-Chin Huang Kazuhiro Kobayashi T. Toda 14 2 0 14 Sep 2023
Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks Soumi Maiti Yifan Peng Shukjae Choi Jee-weon Jung Xuankai Chang Shinji Watanabe VLM AuLLM 16 56 0 14 Sep 2023
Distinguishing Neural Speech Synthesis Models Through Fingerprints in Speech Waveforms Chu Yuan Zhang Jiangyan Yi Jianhua Tao Chenglong Wang Xinrui Yan 13 2 0 13 Sep 2023
VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching Yiwei Guo Chenpeng Du Ziyang Ma Xie Chen K. Yu DiffM 25 36 0 10 Sep 2023
Matcha-TTS: A fast TTS architecture with conditional flow matching Shivam Mehta Ruibo Tu Jonas Beskow Éva Székely G. Henter 16 69 0 06 Sep 2023
MuLanTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2023 Zhihang Xu Shaofei Zhang Xi Wang Jiajun Zhang Wenning Wei Lei He Sheng Zhao 16 2 0 06 Sep 2023
FSD: An Initial Chinese Dataset for Fake Song Detection Yuankun Xie Jingjing Zhou Xiaolin Lu Zhenghao Jiang Yuxin Yang Haonan Cheng Long Ye 24 14 0 05 Sep 2023
Timbre-reserved Adversarial Attack in Speaker Identification Qing Wang Jixun Yao Li Lyna Zhang Pengcheng Guo Linfu Xie AAML 27 4 0 02 Sep 2023
The FruitShell French synthesis system at the Blizzard 2023 Challenge Xin Qi Xiaopeng Wang Zhiyong Wang Wang Liu Mingming Ding Shuchen Shi 11 1 0 01 Sep 2023
QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via Vector-Quantized Self-Supervised Speech Representation Learning Haohan Guo Fenglong Xie Jiawen Kang Yujia Xiao Xixin Wu Helen M. Meng 30 3 0 31 Aug 2023
Towards Improving the Expressiveness of Singing Voice Synthesis with BERT Derived Semantic Information Shaohuan Zhou Shunwei Lei Weiya You Deyi Tuo Yuren You Zhiyong Wu Shiyin Kang H. Meng 16 2 0 31 Aug 2023
The DeepZen Speech Synthesis System for Blizzard Challenge 2023 C. Veaux R. Maia Spyridoula Papendreou 20 1 0 30 Aug 2023
Audio Deepfake Detection: A Survey Jiangyan Yi Chenglong Wang J. Tao Xiaohui Zhang Chu Yuan Zhang Yan Zhao 38 43 0 29 Aug 2023
Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech Hyungchan Yoon Changhwan Kim Eunwoo Song Hyun-Wook Yoon Hong-Goo Kang 29 1 0 28 Aug 2023
Expressive paragraph text-to-speech synthesis with multi-step variational autoencoder Xuyuan Li Zengqiang Shang Peiyang Shi Hua Hua Jian Liu Pengyuan Zhang 27 0 0 25 Aug 2023
Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with Disentangled Representations Wen Wang Yang Song S. Jha 32 8 0 24 Aug 2023
WavMark: Watermarking for Audio Generation Guang Chen Yu-Huan Wu Shujie Liu Tao Liu Xiaoyong Du Furu Wei 17 32 0 24 Aug 2023
Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion Jordan J. Bird Ahmad Lotfi 13 16 0 24 Aug 2023
Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning Jiasheng Ye Zaixiang Zheng Yu Bao Lihua Qian Quanquan Gu DiffM 54 14 0 23 Aug 2023
Can Authorship Representation Learning Capture Stylistic Features? Andrew Wang Cristina Aggazzotti R. Kotula Rafael A. Rivera Soto M. Bishop Nicholas Andrews AI4TS 22 12 0 22 Aug 2023
The DKU-DUKEECE System for the Manipulation Region Location Task of ADD 2023 Zexin Cai Weiqing Wang Yikang Wang Ming Li 22 6 0 20 Aug 2023