E3 TTS: Easy End-to-End Diffusion-based Text to Speech

E3 TTS: Easy End-to-End Diffusion-based Text to Speech

2 November 2023

Nobuyuki Morioka

Papers citing "E3 TTS: Easy End-to-End Diffusion-based Text to Speech"

18 / 18 papers shown

Title
MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder Bowen Zhang Congchao Guo Geng Yang Hang Yu H. M. Zhang ... Yichen Xiao Yiying Zhou Y. Zhang Yuan Lu Yucen He 21 0 0 12 May 2025
Voice Cloning: Comprehensive Survey Hussam Azzuni Abdulmotaleb El Saddik VLM 32 0 0 01 May 2025
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis Yifan Yang S. Liu J. Li Yuxuan Hu Haibin Wu ... Haiyang Sun Yanqing Liu Yan Lu Kai Yu Xie Chen 23 0 0 14 Apr 2025
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis Ziyue Jiang Yi Ren Ruiqi Li Shengpeng Ji Zhenhui Ye ... Y. Zhang Rui Liu Xiang Yin Zhou Zhao Zhou Zhao 64 3 0 26 Feb 2025
Autoregressive Speech Synthesis with Next-Distribution Prediction Xinfa Zhu WenJie Tian Lei Xie VLM 165 4 0 22 Dec 2024
Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis Shijia Liao Y. Wang Tianyu Li Yifan Cheng Ruoyi Zhang Rongzhi Zhou Yijin Xing AuLLM 35 10 0 02 Nov 2024
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching Yushen Chen Zhikang Niu Ziyang Ma Keqi Deng Chunhui Wang Jian Zhao Kai Yu Xie Chen 25 51 0 09 Oct 2024
Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech Yunji Chu Yunseob Shim Unsang Park 18 0 0 24 Sep 2024
E1 TTS: Simple and Fast Non-Autoregressive TTS Zhijun Liu Shuai Wang Pengcheng Zhu Mengxiao Bi Haizhou Li VLM DiffM 38 3 0 14 Sep 2024
Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation Xinhan Di Jiahao Lu Yunming Liang Junjie Zheng Yihua Wang Chaofan Ding ALM 31 1 0 01 Aug 2024
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS Sefik Emre Eskimez Xiaofei Wang Manthan Thakker Canrun Li Chung-Hsien Tsai ... Min Tang Xu Tan Yanqing Liu Sheng Zhao Naoyuki Kanda VLM 35 46 0 26 Jun 2024
An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS Xiaofei Wang Sefik Emre Eskimez Manthan Thakker Hemin Yang Zirun Zhu ... Yufei Xia Jinzhu Li Sheng Zhao Jinyu Li Naoyuki Kanda 34 3 0 09 Jun 2024
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis Zhijun Liu Shuai Wang Sho Inoue Qibing Bai Haizhou Li DiffM 34 15 0 08 Jun 2024
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models Philip Anastassiou Jiawei Chen J. Chen Yuanzhe Chen Zhuo Chen ... Wenjie Zhang Y. Zhang Zilin Zhao Dejian Zhong Xiaobin Zhuang 44 74 0 04 Jun 2024
SimpleSpeech: Towards Simple and Efficient Text-to-Speech with Scalar Latent Transformer Diffusion Models Dongchao Yang Dingdong Wang Haohan Guo Xueyuan Chen Xixin Wu Helen M. Meng 57 25 0 04 Jun 2024
Rolling Diffusion Models David Ruhe Jonathan Heek Tim Salimans Emiel Hoogeboom DiffM 23 32 0 12 Feb 2024
EdiTTS: Score-based Editing for Controllable Text-to-Speech Jaesung Tae Hyeongju Kim Taesu Kim DiffM 171 39 0 06 Oct 2021
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 232 75,445 0 18 May 2015