Guided-TTS: A Diffusion Model for Text-to-Speech via Classifier Guidance

Guided-TTS: A Diffusion Model for Text-to-Speech via Classifier Guidance

23 November 2021

Papers citing "Guided-TTS: A Diffusion Model for Text-to-Speech via Classifier Guidance"

19 / 19 papers shown

Title
On Memorization in Diffusion Models Xiangming Gu Chao Du Tianyu Pang Chongxuan Li Min-Bin Lin Ye Wang DiffM TDI 166 43 0 21 Feb 2025
Text2Data: Low-Resource Data Generation with Textual Control Shiyu Wang Yihao Feng Tian Lan Ning Yu Yu Bai R. Xu H. Wang Caiming Xiong S. DiffM 80 0 0 03 Jan 2025
UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models Yuning Han Bingyin Zhao Rui Chu Feng Luo Biplab Sikdar Yingjie Lao DiffM AAML 70 1 0 16 Dec 2024
Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image Generation Zilyu Ye Zhiyang Chen Tiancheng Li Zemin Huang Weijian Luo Guo-jun Qi DiffM 72 5 0 02 Dec 2024
CHAMP: Conformalized 3D Human Multi-Hypothesis Pose Estimators Harry Zhang Luca Carlone 3DH 66 1 0 27 May 2024
Synthetic Shifts to Initial Seed Vector Exposes the Brittle Nature of Latent-Based Diffusion Models Poyuan Mao Shashank Kotyan Tham Yik Foong Danilo Vasconcellos Vargas 22 5 0 24 Nov 2023
DiCLET-TTS: Diffusion Model based Cross-lingual Emotion Transfer for Text-to-Speech -- A Study between English and Mandarin Tao Li Chenxu Hu Jian Cong Xinfa Zhu Jingbei Li Qiao Tian Yuping Wang Linfu Xie DiffM 22 8 0 02 Sep 2023
U-DiT TTS: U-Diffusion Vision Transformer for Text-to-Speech Xin Jing Yi Chang Zijiang Yang Jiang-jian Xie Andreas Triantafyllopoulos Bjoern W. Schuller 18 10 0 22 May 2023
Don't Play Favorites: Minority Guidance for Diffusion Models Soo Bin Um Suhyeon Lee Jong Chul Ye DiffM 16 21 0 29 Jan 2023
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers Chengyi Wang Sanyuan Chen Yu-Huan Wu Zi-Hua Zhang Long Zhou ... Huaming Wang Jinyu Li Lei He Sheng Zhao Furu Wei 43 639 0 05 Jan 2023
HouseDiffusion: Vector Floorplan Generation via a Diffusion Model with Discrete and Continuous Denoising M. Shabani Sepidehsadat Hosseini Yasutaka Furukawa DiffM 21 58 0 23 Nov 2022
EmoDiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance Yiwei Guo Chenpeng Du Xie Chen K. Yu DiffM 52 39 0 17 Nov 2022
Controllable Data Generation by Deep Learning: A Review Shiyu Wang Yuanqi Du Xiaojie Guo Bo Pan Zhaohui Qin Liang Zhao 29 28 0 19 Jul 2022
Diffusion Probabilistic Models for 3D Point Cloud Generation Shitong Luo Wei Hu 3DPC 178 721 0 02 Mar 2021
Generative Spoken Language Modeling from Raw Audio Kushal Lakhotia Evgeny Kharitonov Wei-Ning Hsu Yossi Adi Adam Polyak ... Tu Nguyen Jade Copet Alexei Baevski A. Mohamed Emmanuel Dupoux AuLLM 174 336 0 01 Feb 2021
High Fidelity Speech Synthesis with Adversarial Networks Mikolaj Binkowski Jeff Donahue Sander Dieleman Aidan Clark Erich Elsen Norman Casagrande Luis C. Cobo Karen Simonyan 215 239 0 25 Sep 2019
NeMo: a toolkit for building AI applications using Neural Modules Oleksii Kuchaiev Jason Chun Lok Li Huyen Nguyen Oleksii Hrinchuk Ryan Leary ... Jack Cook P. Castonguay Mariya Popova Jocelyn Huang Jonathan M. Cohen 185 291 0 14 Sep 2019
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 214 2,233 0 14 Jun 2018
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Z. Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 204 819 0 12 Jun 2018