CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model

11 May 2023

Wei Xue

Papers citing "CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model"

35 / 35 papers shown

Title
APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech Zhicheng Lian Lizhi Wang Hua Huang 49 0 0 29 Apr 2025
A Survey on Cross-Modal Interaction Between Music and Multimodal Data Sifei Li Mining Tan Feier Shen Minyan Luo Zijiao Yin Fan Tang W. Dong Changsheng Xu 57 0 0 17 Apr 2025
SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow K. Wang Wenhao Guan Shenghui Lu Jianglong Yao Lin Li Q. Hong 22 0 0 10 Apr 2025
DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis Yingahao Aaron Li Rithesh Kumar Zeyu Jin DiffM 88 0 0 21 Feb 2025
FlashSR: One-step Versatile Audio Super-resolution via Diffusion Distillation Jaekwon Im Juhan Nam DiffM 43 0 0 18 Jan 2025
DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable Styles Jiaxuan Liu Zhaoci Liu Y. Hu Yingying Gao Shilei Zhang Zhenhua Ling DiffM 73 1 0 04 Dec 2024
ConSinger: Efficient High-Fidelity Singing Voice Generation with Minimal Steps Yulin Song Guorui Sang Jing Yu Chuangbai Xiao DiffM 32 0 0 20 Oct 2024
Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding Tan Dat Nguyen Ji-Hoon Kim Jeongsoo Choi Shukjae Choi Jinseok Park Younglo Lee Joon Son Chung 26 0 0 17 Oct 2024
DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech Xin Qi Ruibo Fu Zhengqi Wen Tao Wang Chunyu Qiang ... Xiaopeng Wang Yuankun Xie Yukun Liu Xuefei Liu Guanjun Li DiffM 13 0 0 18 Sep 2024
StyleTTS-ZS: Efficient High-Quality Zero-Shot Text-to-Speech Synthesis with Distilled Time-Varying Style Diffusion Yinghao Aaron Li Xilin Jiang Cong Han N. Mesgarani DiffM 29 4 0 16 Sep 2024
E1 TTS: Simple and Fast Non-Autoregressive TTS Zhijun Liu Shuai Wang Pengcheng Zhu Mengxiao Bi Haizhou Li VLM DiffM 33 3 0 14 Sep 2024
Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee AI4TS 19 1 0 15 Aug 2024
Music2Latent: Consistency Autoencoders for Latent Audio Compression Marco Pasini Stefan Lattner George Fazekas 14 6 0 12 Aug 2024
CoSIGN: Few-Step Guidance of ConSIstency Model to Solve General INverse Problems Jiankun Zhao Bowen Song Liyue Shen DiffM 32 4 0 17 Jul 2024
LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis Zhenxiong Tan Xinyin Ma Gongfan Fang Xinchao Wang 23 3 0 15 Jul 2024
DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability Hyun Joon Park Jin Sob Kim Wooseok Shin Sung Won Han DiffM 25 2 0 27 Jun 2024
GLOBE: A High-quality English Corpus with Global Accents for Zero-shot Speaker Adaptive Text-to-Speech Wenbin Wang Yang Song Sanjay Jha 29 5 0 21 Jun 2024
LAFMA: A Latent Flow Matching Model for Text-to-Audio Generation Wenhao Guan K. Wang Wangjin Zhou Yang Wang Feng Deng Hui Wang Lin Li Q. Hong Yong Qin DiffM 28 3 0 12 Jun 2024
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis Zhijun Liu Shuai Wang Sho Inoue Qibing Bai Haizhou Li DiffM 32 15 0 08 Jun 2024
AudioLCM: Text-to-Audio Generation with Latent Consistency Models Huadai Liu Rongjie Huang Yang Liu Hengyuan Cao Jialei Wang Xize Cheng Siqi Zheng Zhou Zhao 63 8 0 01 Jun 2024
FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation Jianyi Chen Wei Xue Xu Tan Zhen Ye Qi-fei Liu Yi-Ting Guo 37 2 0 13 May 2024
Efficient Text-driven Motion Generation via Latent Consistency Training Mengxian Hu Minghao Zhu Xun Zhou Qingqing Yan Shu Li Chengju Liu Qi Chen 28 1 0 05 May 2024
FlashSpeech: Efficient Zero-Shot Speech Synthesis Zhen Ye Zeqian Ju Haohe Liu Xu Tan Jianyi Chen ... Weizhen Bian Shulin He Qi-fei Liu Yi-Ting Guo Wei Xue 32 16 0 23 Apr 2024
CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiency through Weighted Samplers and Consistency Models Xiang Li Fan Bu Ambuj Mehrish Yingting Li Jiale Han Bo Cheng Soujanya Poria DiffM 32 6 0 31 Mar 2024
CoMoSVC: Consistency Model-based Singing Voice Conversion Yiwen Lu Zhen Ye Wei Xue Xu Tan Qi-fei Liu Yi-Ting Guo 9 11 0 03 Jan 2024
Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis Zehua Chen Guande He Kaiwen Zheng Xu Tan Jun Zhu DiffM 39 21 0 06 Dec 2023
HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation of Speech by Hierarchical Variational Inference for Zero-shot Speech Synthesis Sang-Hoon Lee Haram Choi Seung-Bin Kim Seong-Whan Lee BDL 17 31 0 21 Nov 2023
ReFlow-TTS: A Rectified Flow Model for High-fidelity Text-to-Speech Wenhao Guan Qi Su Haodong Zhou Shiyu Miao Xingjia Xie Lin Li Q. Hong DiffM 8 13 0 29 Sep 2023
ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation Yatong Bai Trung D. Q. Dang Dung N. Tran K. Koishida Somayeh Sojoudi DiffM 33 22 0 19 Sep 2023
VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching Yiwei Guo Chenpeng Du Ziyang Ma Xie Chen K. Yu DiffM 21 36 0 10 Sep 2023
Matcha-TTS: A fast TTS architecture with conditional flow matching Shivam Mehta Ruibo Tu Jonas Beskow Éva Székely G. Henter 14 68 0 06 Sep 2023
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers Kai Shen Zeqian Ju Xu Tan Yanqing Liu Yichong Leng Lei He Tao Qin Sheng Zhao Jiang Bian DiffM 10 219 0 18 Apr 2023
Sampling is as easy as learning the score: theory for diffusion models with minimal data assumptions Sitan Chen Sinho Chewi Jungshian Li Yuanzhi Li Adil Salim Anru R. Zhang DiffM 123 245 0 22 Sep 2022
Diffusion Models: A Comprehensive Survey of Methods and Applications Ling Yang Zhilong Zhang Yingxia Shao Shenda Hong Runsheng Xu Yue Zhao Wentao Zhang Bin Cui Ming-Hsuan Yang DiffM MedIm 215 1,277 0 02 Sep 2022
DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs Songxiang Liu Dan Su Dong Yu DiffM 68 65 0 28 Jan 2022