F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder

15 April 2020

Kaizhi Qian

Papers citing "F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder"

22 / 22 papers shown

Title
Lightweight End-to-end Text-to-speech Synthesis for low resource on-device applications Biel Tura Vecino Adam Gabry's Daniel Mątwicki Andrzej Pomirski Tom Iddon Marius Cotescu Jaime Lorenzo-Trueba 34 0 0 12 May 2025
Generative Adversarial Network based Voice Conversion: Techniques, Challenges, and Recent Advancements Sandipan Dhar N. D. Jana Swagatam Das 43 0 0 27 Apr 2025
Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation Haram Choi Sang-Hoon Lee Seong-Whan Lee DiffM 21 24 0 08 Nov 2023
HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer Sang-Hoon Lee Haram Choi H. Oh Seong-Whan Lee BDL 23 9 0 30 Jul 2023
Cross-domain Neural Pitch and Periodicity Estimation Max Morrison Caedon Hsieh Nathan Pruyne Bryan Pardo 18 17 0 28 Jan 2023
A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units Li-Wei Chen Shinji Watanabe Alexander I. Rudnicky 18 6 0 12 Nov 2022
DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion Chihiro Watanabe Hirokazu Kameoka DRL 24 0 0 20 Oct 2022
ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Speed Mei-Shuo Chen Z. Duan 22 10 0 23 Sep 2022
Are disentangled representations all you need to build speaker anonymization systems? Pierre Champion D. Jouvet Anthony Larcher 22 20 0 22 Aug 2022
Audio Deepfake Detection Based on a Combination of F0 Information and Real Plus Imaginary Spectrogram Features Jun Xue Cunhang Fan Zhao Lv J. Tao Jiangyan Yi C. Zheng Zhengqi Wen Minmin Yuan S. Shao 28 31 0 02 Aug 2022
Speak Like a Dog: Human to Non-human creature Voice Conversion Kohei Suzuki Shoki Sakamoto T. Taniguchi Hirokazu Kameoka 19 2 0 09 Jun 2022
End-to-End Zero-Shot Voice Conversion with Location-Variable Convolutions Wonjune Kang M. Hasegawa-Johnson D. Roy 27 8 0 19 May 2022
ContentVec: An Improved Self-Supervised Speech Representation by Disentangling Speakers Kaizhi Qian Yang Zhang Heting Gao Junrui Ni Cheng-I Jeff Lai David D. Cox M. Hasegawa-Johnson Shiyu Chang DRL 21 110 0 20 Apr 2022
Zero-shot Singing Technique Conversion Brendan T. O'Connor S. Dixon Georgy Fazekas 24 5 0 16 Nov 2021
Zero-shot Voice Conversion via Self-supervised Prosody Representation Learning Shijun Wang Dimche Kostadinov Damian Borth 19 10 0 27 Oct 2021
StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion Yinghao Aaron Li A. Zare N. Mesgarani 19 98 0 21 Jul 2021
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion Disong Wang Liqun Deng Y. Yeung Xiao Chen Xunying Liu H. Meng DRL 14 136 0 18 Jun 2021
Semi-supervised Learning for Singing Synthesis Timbre J. Bonada Merlijn Blaauw 19 4 0 05 Nov 2020
VAW-GAN for Disentanglement and Recomposition of Emotional Elements in Speech Kun Zhou Berrak Sisman Haizhou Li DRL 16 40 0 03 Nov 2020
AGAIN-VC: A One-shot Voice Conversion using Activation Guidance and Adaptive Instance Normalization Yen-Hao Chen Da-Yi Wu Tsung-Han Wu Hung-yi Lee 18 107 0 31 Oct 2020
Transfer Learning from Speech Synthesis to Voice Conversion with Non-Parallel Training Data Mingyang Zhang Yi Zhou Li Zhao Haizhou Li 13 51 0 30 Sep 2020
Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice Conversion Kun Zhou Berrak Sisman Mingyang Zhang Haizhou Li 19 52 0 13 May 2020