Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search

22 May 2020

Papers citing "Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search"

50 / 286 papers shown

Title
DPP-TTS: Diversifying prosodic features of speech via determinantal point processes Seongho Joo Hyukhun Koh Kyomin Jung DiffM 37 0 0 23 Oct 2023
DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation Qingkai Fang Yan Zhou Yangzhou Feng 32 6 0 11 Oct 2023
JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions Detai Xin Junfeng Jiang Shinnosuke Takamichi Yuki Saito Akiko Aizawa Hiroshi Saruwatari 11 11 0 09 Oct 2023
A Bias-Variance-Covariance Decomposition of Kernel Scores for Generative Models Sebastian G. Gruber Florian Buettner UQCV UD 18 1 0 09 Oct 2023
Unified speech and gesture synthesis using flow matching Shivam Mehta Ruibo Tu Simon Alexanderson Jonas Beskow Éva Székely G. Henter 22 3 0 08 Oct 2023
Comparative Analysis of Transfer Learning in Deep Learning Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset Ze Liu 17 0 0 08 Oct 2023
DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation Roi Benita Michael Elad Joseph Keshet DiffM 25 7 0 02 Oct 2023
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models Chunyu Qiang Hao Li Yixin Tian Yi Zhao Ying Zhang Longbiao Wang Jianwu Dang DiffM 33 2 0 27 Sep 2023
AAS-VC: On the Generalization Ability of Automatic Alignment Search based Non-autoregressive Sequence-to-sequence Voice Conversion Wen-Chin Huang Kazuhiro Kobayashi T. Toda 14 2 0 14 Sep 2023
VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching Yiwei Guo Chenpeng Du Ziyang Ma Xie Chen K. Yu DiffM 25 36 0 10 Sep 2023
Cross-Utterance Conditioned VAE for Speech Generation Y. Li Cheng Yu Guangzhi Sun Weiqin Zu Zheng Tian ... Wei Pan Chao Zhang Jun Wang Yang Yang Fanglei Sun 11 2 0 08 Sep 2023
Matcha-TTS: A fast TTS architecture with conditional flow matching Shivam Mehta Ruibo Tu Jonas Beskow Éva Székely G. Henter 16 69 0 06 Sep 2023
The FruitShell French synthesis system at the Blizzard 2023 Challenge Xin Qi Xiaopeng Wang Zhiyong Wang Wang Liu Mingming Ding Shuchen Shi 11 1 0 01 Sep 2023
QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via Vector-Quantized Self-Supervised Speech Representation Learning Haohan Guo Fenglong Xie Jiawen Kang Yujia Xiao Xixin Wu Helen M. Meng 30 3 0 31 Aug 2023
LightGrad: Lightweight Diffusion Probabilistic Model for Text-to-Speech Jing Chen Xingcheng Song Zhendong Peng Binbin Zhang Fuping Pan Zhiyong Wu DiffM 19 16 0 31 Aug 2023
Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech Hyungchan Yoon Changhwan Kim Eunwoo Song Hyun-Wook Yoon Hong-Goo Kang 19 1 0 28 Aug 2023
WavMark: Watermarking for Audio Generation Guang Chen Yu-Huan Wu Shujie Liu Tao Liu Xiaoyong Du Furu Wei 17 32 0 24 Aug 2023
Multi-GradSpeech: Towards Diffusion-based Multi-Speaker Text-to-speech Using Consistent Diffusion Models Heyang Xue Shuai Guo Pengcheng Zhu Mengxiao Bi DiffM 35 1 0 21 Aug 2023
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining Haohe Liu Yiitan Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley DiffM 25 221 0 10 Aug 2023
Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS Myeongji Ko Yong-Hoon Choi DiffM 20 1 0 03 Aug 2023
SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis Ramanan Sivaguru Vasista Sai Lodagala S. Umesh 14 2 0 02 Aug 2023
Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speech Guangyan Zhang Thomas Merritt M. Ribeiro Biel Tura Vecino K. Yanagisawa ... Ammar Abbas Piotr Bilinski Roberto Barra-Chicote Daniel Korzekwa Jaime Lorenzo-Trueba DiffM 31 3 0 31 Jul 2023
DiffProsody: Diffusion-based Latent Prosody Generation for Expressive Speech Synthesis with Prosody Conditional Adversarial Training H. Oh Sang-Hoon Lee Seong-Whan Lee DiffM 15 14 0 31 Jul 2023
VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design Jungil Kong Jihoon Park Beomjeong Kim Jeongmin Kim Dohee Kong Sangjin Kim 21 35 0 31 Jul 2023
Improving TTS for Shanghainese: Addressing Tone Sandhi via Word Segmentation Yuan-Ping Chen 11 1 0 30 Jul 2023
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding Chunyu Qiang Hao Li Hao Ni He Qu Ruibo Fu Tao Wang Longbiao Wang J. Dang DiffM 30 8 0 28 Jul 2023
Mega-TTS 2: Boosting Prompting Mechanisms for Zero-Shot Speech Synthesis Ziyue Jiang Jinglin Liu Yi Ren Jinzheng He Zhe Ye ... Pengfei Wei Chunfeng Wang Xiang Yin Zejun Ma Zhou Zhao 33 44 0 14 Jul 2023
The Ethical Implications of Generative Audio Models: A Systematic Literature Review J. Barnett 16 25 0 07 Jul 2023
ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading Yujia Xiao Shaofei Zhang Xi Wang Xuejiao Tan Lei He Sheng Zhao Frank Soong Tan Lee 17 5 0 03 Jul 2023
EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech Daria Diatlova V. Shutov 26 7 0 28 Jun 2023
UnitSpeech: Speaker-adaptive Speech Synthesis with Untranscribed Data Heeseung Kim Sungwon Kim Ji-Ran Yeom Sung-Wan Yoon DiffM 19 21 0 28 Jun 2023
Two-Stage Voice Anonymization for Enhanced Privacy F. Nespoli Daniel Barreda Joerg Bitzer Patrick A. Naylor 19 3 0 28 Jun 2023
Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale Matt Le Apoorv Vyas Bowen Shi Brian Karrer Leda Sari ... Mary Williamson Vimal Manohar Yossi Adi Jay Mahadeokar Wei-Ning Hsu AuLLM 28 264 0 23 Jun 2023
Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis Shivam Mehta Siyang Wang Simon Alexanderson Jonas Beskow Éva Székely G. Henter DiffM 26 14 0 15 Jun 2023
EM-Network: Oracle Guided Self-distillation for Sequence Learning J. Yoon Sunghwan Ahn Hyeon Seung Lee Minchan Kim Seokhwan Kim N. Kim VLM 25 2 0 14 Jun 2023
UniCATS: A Unified Context-Aware Text-to-Speech Framework with Contextual VQ-Diffusion and Vocoding Chenpeng Du Yiwei Guo Feiyu Shen Zhijun Liu Zheng Liang Xie Chen Shuai Wang Hui Zhang K. Yu DiffM 16 41 0 13 Jun 2023
PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and Pause-based Prosody Modeling Ji-Sang Hwang Sang-Hoon Lee Seong-Whan Lee 8 4 0 13 Jun 2023
HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio Codec and Latent Diffusion Models Ji-Sang Hwang Sang-Hoon Lee Seong-Whan Lee DiffM 25 8 0 12 Jun 2023
Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge Wenhao Guan Tao Li Yishuang Li Hukai Huang Q. Hong Lin Li DiffM 24 6 0 07 Jun 2023
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias Ziyue Jiang Yi Ren Zhe Ye Jinglin Liu Chen Zhang ... Rongjie Huang Chunfeng Wang Xiang Yin Zejun Ma Zhou Zhao DiffM 32 73 0 06 Jun 2023
Rhythm-controllable Attention with High Robustness for Long Sentence Speech Synthesis Dengfeng Ke Yayue Deng Yukang Jia Jinlong Xue Qi Luo Ya Li Jianqing Sun Jiaen Liang Binghuai Lin 17 0 0 05 Jun 2023
Latent Optimal Paths by Gumbel Propagation for Variational Bayesian Dynamic Programming Xinlei Niu Christian J. Walder J. Zhang Charles Patrick Martin BDL 11 0 0 05 Jun 2023
Towards Robust FastSpeech 2 by Modelling Residual Multimodality Fabian Kögel Bac Nguyen Fabien Cardinaux 14 2 0 02 Jun 2023
XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations for Text-to-Speech L. T. Nguyen Thinh-Le-Gia Pham Dat Quoc Nguyen 17 13 0 31 May 2023
LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus Yuma Koizumi Heiga Zen Shigeki Karita Yifan Ding Kohei Yatabe Nobuyuki Morioka M. Bacchiani Yu Zhang Wei Han Ankur Bapna 36 66 0 30 May 2023
Stochastic Pitch Prediction Improves the Diversity and Naturalness of Speech in Glow-TTS Sewade Ogun Vincent Colotte Emmanuel Vincent DiffM 27 4 0 28 May 2023
Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis Seong-Hyun Park Bohyung Kim Tae-Hyun Oh 32 1 0 26 May 2023
DDDM-VC: Decoupled Denoising Diffusion Models with Disentangled Representation and Prior Mixup for Verified Robust Voice Conversion Haram Choi Sang-Hoon Lee Seong-Whan Lee DiffM 6 26 0 25 May 2023
FluentSpeech: Stutter-Oriented Automatic Speech Editing with Context-Aware Diffusion Models Ziyue Jiang Qiang Yang Jia-li Zuo Zhe Ye Rongjie Huang Yixiang Ren Zhou Zhao DiffM 62 13 0 23 May 2023
U-DiT TTS: U-Diffusion Vision Transformer for Text-to-Speech Xin Jing Yi Chang Zijiang Yang Jiang-jian Xie Andreas Triantafyllopoulos Bjoern W. Schuller 26 10 0 22 May 2023