How Far Are We from Robust Voice Conversion: A Survey

v1v2v3 (latest)

How Far Are We from Robust Voice Conversion: A Survey

24 November 2020

Tzu-hsien Huang

ArXiv (abs)PDF HTML

Papers citing "How Far Are We from Robust Voice Conversion: A Survey"

15 / 15 papers shown

Title
RoVo: Robust Voice Protection Against Unauthorized Speech Synthesis with Embedding-Level Perturbations Seungmin Kim Sohee Park Donghyun Kim Jisu Lee Daeseon Choi AAML 50 0 0 19 May 2025
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation Haorui He Zengqiang Shang Chaoren Wang Xuyuan Li Yicheng Gu ... Peiyang Shi Yansen Wang Kai Chen Pengyuan Zhang Zhikai Wu AuLLM 139 5 0 28 Jan 2025
Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation Haorui He Zengqiang Shang Chaoren Wang Xuyuan Li Yicheng Gu ... Peiyang Shi Yuancheng Wang Kai Chen Pengyuan Zhang Zhizheng Wu 94 54 0 07 Jul 2024
Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment Takuto Igarashi Yuki Saito Kentaro Seki Shinnosuke Takamichi Ryuichi Yamamoto Kentaro Tachibana Hiroshi Saruwatari 55 1 0 11 Jun 2024
SRC4VC: Smartphone-Recorded Corpus for Voice Conversion Benchmark Yuki Saito Takuto Igarashi Kentaro Seki Shinnosuke Takamichi Ryuichi Yamamoto Kentaro Tachibana Hiroshi Saruwatari 41 0 0 11 Jun 2024
ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi B. Theobald Ahmed Hussen Abdelaziz Shinji Watanabe 149 24 0 30 Jan 2024
Low-latency Real-time Voice Conversion on CPU Konstantine Sadov Matthew Hutter Asara Near VLM 59 1 0 01 Nov 2023
Learning Repeatable Speech Embeddings Using An Intra-class Correlation Regularizer Jianwei Zhang Suren Jayasuriya Visar Berisha SSL 81 2 0 25 Oct 2023
UniAudio: An Audio Foundation Model Toward Universal Audio Generation Dongchao Yang Jinchuan Tian Xuejiao Tan Rongjie Huang Songxiang Liu ... Jiang Bian Xixin Wu Zhou Zhao Shinji Watanabe Helen M. Meng CVBM AuLLM 105 128 0 01 Oct 2023
Noise-robust voice conversion with domain adversarial training Hongqiang Du Lei Xie Haizhou Li 61 12 0 26 Jan 2022
Training Robust Zero-Shot Voice Conversion Models with Self-supervised Features Trung D. Q. Dang Dung T. Tran Peter Chin K. Koishida SSL 69 15 0 08 Dec 2021
Toward Degradation-Robust Voice Conversion Chien-yu Huang Kai-Wei Chang Hung-yi Lee 85 9 0 14 Oct 2021
Improving robustness of one-shot voice conversion with deep discriminative speaker encoder Hongqiang Du Lei Xie 57 6 0 19 Jun 2021
S2VC: A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained Representations Jheng-hao Lin Yist Y. Lin C. Chien Hung-yi Lee 142 56 0 07 Apr 2021
Deepfakes Generation and Detection: State-of-the-art, open challenges, countermeasures, and way forward Momina Masood M. Nawaz K. Malik A. Javed Aun Irtaza AAML 196 317 0 25 Feb 2021