Disentangleing Content and Fine-grained Prosody Information via Hybrid
ASR Bottleneck Features for Voice Conversion

Disentangleing Content and Fine-grained Prosody Information via Hybrid ASR Bottleneck Features for Voice Conversion

24 March 2022

Xintao Zhao

Feng Liu

Zhiyong Wu

Shiyin Kang

ArXiv (abs)PDF HTML

Papers citing "Disentangleing Content and Fine-grained Prosody Information via Hybrid ASR Bottleneck Features for Voice Conversion"

16 / 16 papers shown

Title
CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance Junchuan Zhao Wei Zeng Tianle Lyu Ye Wang 28 0 0 24 Sep 2025
Prosody-Adaptable Audio Codecs for Zero-Shot Voice Conversion via In-Context Learning Junchuan Zhao Xintong Wang Ye Wang 66 3 0 21 May 2025
AVENet: Disentangling Features by Approximating Average Features for Voice Conversion Wenyu Wang Yiquan Zhou Jihua Zhu Hongwu Ding Jiacheng Xu Shihao Li DRL 83 0 0 08 Apr 2025
Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre Modeling Yuguang Yang Yu Pan Jixun Yao Xiang Zhang Jianhao Ye Hongbin Zhou Lei Xie Lei Ma Jianjun Zhao 26 1 0 02 Oct 2024
Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models Sijing Chen Qi Liu Laipeng He Tianwei He Wendi He ... Huimin Zhang Xiang Zhang Guangcheng Zhao Hongbin Zhou Pengpeng Zou 130 12 0 18 Sep 2024
RobustSVC: HuBERT-based Melody Extractor and Adversarial Learning for Robust Singing Voice Conversion Wei Chen Xintao Zhao Jun Chen Binzhu Sha Zhiwei Lin Zhiyong Wu 116 1 0 10 Sep 2024
EAD-VC: Enhancing Speech Auto-Disentanglement for Voice Conversion with IFUB Estimator and Joint Text-Guided Consistent Learning Ziqi Liang Jianzong Wang Xulong Zhang Yong Zhang Ning Cheng Jing Xiao 79 1 0 30 Apr 2024
Learning Disentangled Speech Representations with Contrastive Learning and Time-Invariant Retrieval Yimin Deng Huaizhen Tang Xulong Zhang Ning Cheng Jing Xiao Jianzong Wang DRL 121 1 0 16 Jan 2024
CLN-VC: Text-Free Voice Conversion Based on Fine-Grained Style Control and Contrastive Learning with Negative Samples Augmentation Yimin Deng Xulong Zhang Jianzong Wang Ning Cheng Jing Xiao 114 3 0 15 Nov 2023
DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding Ziqian Ning Yuepeng Jiang Pengcheng Zhu Jixun Yao Shuai Wang Linfu Xie Mengxiao Bi 100 12 0 21 May 2023
Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion Xintao Zhao Shuai Wang Yang Chao Zhiyong Wu Helen Meng 89 3 0 16 May 2023
Voice conversion with limited data and limitless data augmentations Olga Slizovskaia Jordi Janer Pritish Chandna Oscar Mayor 76 1 0 27 Dec 2022
Improved disentangled speech representations using contrastive learning in factorized hierarchical variational autoencoder Yuying Xie Thomas Arildsen Zheng-Hua Tan 91 3 0 15 Nov 2022
Expressive-VC: Highly Expressive Voice Conversion with Attention Fusion of Bottleneck and Perturbation Features Ziqian Ning Qicong Xie Pengcheng Zhu Zhichao Wang Liumeng Xue Jixun Yao Linfu Xie Mengxiao Bi 98 20 0 09 Nov 2022
Streaming Voice Conversion Via Intermediate Bottleneck Features And Non-streaming Teacher Guidance Yuan-Jui Chen Ming Tu Tang-Chun Li Xin Li Qiuqiang Kong Jiaxin Li Zhichao Wang Qiao Tian Yuping Wang Yuxuan Wang 106 13 0 27 Oct 2022
Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer Encoders Andy T. Liu Shu-Wen Yang Po-Han Chi Po-Chun Hsu Hung-yi Lee SSL 241 380 0 25 Oct 2019