Towards Multi-Scale Speaking Style Modelling with Hierarchical Context
Information for Mandarin Speech Synthesis

v1v2 (latest)

Towards Multi-Scale Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis

Interspeech (Interspeech), 2022

6 April 2022

Yixuan Zhou

Zhiyong Wu

Shiyin Kang

ArXiv (abs)PDF HTML

Papers citing "Towards Multi-Scale Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis"

9 / 9 papers shown

Title
ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs Eray Eren Qingju Liu Hyeongwoo Kim Pablo Garrido Abeer Alwan 82 0 0 12 Aug 2025
HELPNet: Hierarchical Perturbations Consistency and Entropy-guided Ensemble for Scribble Supervised Medical Image Segmentation Xiao Zhang Shaoxuan Wu Peilin Zhang Zhuo Jin Xiaosong Xiong Qirong Bu Jingkun Chen Jun Feng 222 6 0 25 Dec 2024
Hierarchical Emotion Prediction and Control in Text-to-Speech SynthesisIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Sho Inoue Kun Zhou Shuai Wang Haizhou Li 163 11 0 15 May 2024
Fine-Grained Quantitative Emotion Editing for Speech Generation Sho Inoue Kun Zhou Shuai Wang Haizhou Li 206 5 0 04 Mar 2024
StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis Xueyuan Chen Xi Wang Shaofei Zhang Lei He Zhiyong Wu Xixin Wu Helen M. Meng 170 11 0 19 Dec 2023
CONCSS: Contrastive-based Context Comprehension for Dialogue-appropriate Prosody in Conversational Speech SynthesisIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 Yayue Deng Jinlong Xue Yukang Jia Qifei Li Yichen Han Fengping Wang Yingming Gao Dengfeng Ke Ya Li 261 11 0 16 Dec 2023
CLN-VC: Text-Free Voice Conversion Based on Fine-Grained Style Control and Contrastive Learning with Negative Samples Augmentation Yimin Deng Xulong Zhang Jianzong Wang Ning Cheng Jing Xiao 190 3 0 15 Nov 2023
HiGNN-TTS: Hierarchical Prosody Modeling with Graph Neural Networks for Expressive Long-form TTSAutomatic Speech Recognition & Understanding (ASRU), 2023 Dake Guo Xinfa Zhu Liumeng Xue Tao Li Yuanjun Lv Yuepeng Jiang Linfu Xie 170 4 0 25 Sep 2023
MSStyleTTS: Multi-Scale Style Modeling with Hierarchical Context Information for Expressive Speech SynthesisIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2023 Shunwei Lei Yixuan Zhou Liyang Chen Zhiyong Wu Xixin Wu Shiyin Kang Helen Meng 177 9 0 29 Jul 2023