Disentangleing Content and Fine-grained Prosody Information via Hybrid ASR Bottleneck Features for Voice Conversion

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

24 March 2022

Xintao Zhao

Feng Liu

Changhe Song

Zhiyong Wu

Shiyin Kang

Deyi Tuo

Helen Meng

ArXiv (abs)PDF HTML Github (5089★)

Papers citing "Disentangleing Content and Fine-grained Prosody Information via Hybrid ASR Bottleneck Features for Voice Conversion"

18 / 18 papers shown

FabasedVC: Enhancing Voice Conversion with Text Modality Fusion and Phoneme-Level SSL Features

13 Nov 2025

CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance

220

24 Sep 2025

Prosody-Adaptable Audio Codecs for Zero-Shot Voice Conversion via In-Context Learning

Junchuan Zhao

Xintong Wang

Ye Wang

190

21 May 2025

AVENet: Disentangling Features by Approximating Average Features for Voice Conversion

210

08 Apr 2025

Singing Voice Conversion with Accompaniment Using Self-Supervised Representation-Based Melody FeaturesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

529

07 Feb 2025

Takin-VC: Expressive Zero-Shot Voice Conversion via Adaptive Hybrid Content Encoding and Enhanced Timbre ModelingAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Yuguang Yang

Yu Pan

Jixun Yao

Xiang Zhang

Jianhao Ye

Hongbin Zhou

Lei Xie

Lei Ma

Jianjun Zhao

225

02 Oct 2024

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

Sijing Chen

Laipeng He

...

Xiang Zhang

355

18 Sep 2024

RobustSVC: HuBERT-based Melody Extractor and Adversarial Learning for Robust Singing Voice ConversionInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2024

Wei Chen

Xintao Zhao

Jun Chen

Binzhu Sha

Zhiwei Lin

Zhiyong Wu

317

10 Sep 2024

EAD-VC: Enhancing Speech Auto-Disentanglement for Voice Conversion with IFUB Estimator and Joint Text-Guided Consistent Learning

163

30 Apr 2024

Learning Disentangled Speech Representations with Contrastive Learning and Time-Invariant RetrievalIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

350

16 Jan 2024

CLN-VC: Text-Free Voice Conversion Based on Fine-Grained Style Control and Contrastive Learning with Negative Samples Augmentation

324

15 Nov 2023

DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive CodingInterspeech (Interspeech), 2023

Pengcheng Zhu

Shuai Wang

215

21 May 2023

Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice ConversionIEEE International Conference on Multimedia and Expo (ICME), 2023

Xintao Zhao

Shuai Wang

Yang Chao

Zhiyong Wu

Helen Meng

183

16 May 2023

Voice conversion with limited data and limitless data augmentations

128

27 Dec 2022

Improved disentangled speech representations using contrastive learning in factorized hierarchical variational autoencoderEuropean Signal Processing Conference (EUSIPCO), 2022

Yuying Xie

Thomas Arildsen

Zheng-Hua Tan

228

15 Nov 2022

Expressive-VC: Highly Expressive Voice Conversion with Attention Fusion of Bottleneck and Perturbation FeaturesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Pengcheng Zhu

185

09 Nov 2022

Streaming Voice Conversion Via Intermediate Bottleneck Features And Non-streaming Teacher GuidanceIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Yuxuan Wang

293

27 Oct 2022

Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer EncodersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019

645

394

25 Oct 2019