v1v2 (latest)

AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

14 May 2019

Kaizhi Qian

Papers citing "AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss"

50 / 273 papers shown

Title
Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos Alexander Waibel M. Behr Fevziye Irem Eyiokur Dogucan Yaman Tuan-Nam Nguyen Carlos Mullov Mehmet Arif Demirtas Alperen Kantarci Stefan Constantin H. K. Ekenel CVBM 69 16 0 09 Jun 2022
Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models Alon Levkovitch Eliya Nachmani Lior Wolf DiffM 78 29 0 05 Jun 2022
End-to-End Zero-Shot Voice Conversion with Location-Variable Convolutions Wonjune Kang M. Hasegawa-Johnson D. Roy 82 8 0 19 May 2022
Towards Improved Zero-shot Voice Conversion with Conditional DSVAE Jiachen Lian Chunlei Zhang Gopala Krishna Anumanchipalli Dong Yu 53 23 0 11 May 2022
Parallel Synthesis for Autoregressive Speech Generation Po-Chun Hsu Da-Rong Liu Andy T. Liu Hung-yi Lee 80 5 0 25 Apr 2022
Dictionary Attacks on Speaker Verification Mirko Marras Pawel Korus Anubhav Jain N. Memon AAML 82 10 0 24 Apr 2022
ContentVec: An Improved Self-Supervised Speech Representation by Disentangling Speakers Kaizhi Qian Yang Zhang Heting Gao Junrui Ni Cheng-I Jeff Lai David D. Cox M. Hasegawa-Johnson Shiyu Chang DRL 68 113 0 20 Apr 2022
Analysis and transformations of voice level in singing voice F. Bous Axel Roebel 29 1 0 08 Apr 2022
Enhanced exemplar autoencoder with cycle consistency loss in any-to-one voice conversion Weida Liang Lantian Li Wenqiang Du Dong Wang 122 0 0 08 Apr 2022
Universal Adaptor: Converting Mel-Spectrograms Between Different Configurations for Speech Synthesis Fan Wang Po-Chun Hsu Da-Rong Liu Hung-yi Lee 58 0 0 01 Apr 2022
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis Karren D. Yang Dejan Marković Steven Krenn Vasu Agrawal Alexander Richard VGen 79 33 0 31 Mar 2022
HiFi-VC: High Quality ASR-Based Voice Conversion A. Kashkin I. Karpukhin S. Shishkin 75 6 0 31 Mar 2022
Robust Disentangled Variational Speech Representation Learning for Zero-shot Voice Conversion Jiachen Lian Chunlei Zhang Dong Yu DRL 65 52 0 30 Mar 2022
Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention VAE Ziang Long Yunling Zheng Meng Yu Jack Xin DRL 63 5 0 30 Mar 2022
Disentangling speech from surroundings with neural embeddings Ahmed Omran Neil Zeghidour Zalan Borsos Félix de Chaumont Quitry M. Slaney Marco Tagliasacchi 66 9 0 29 Mar 2022
SpeechSplit 2.0: Unsupervised speech disentanglement for voice conversion Without tuning autoencoder Bottlenecks Chak Ho Chan Kaizhi Qian Yang Zhang M. Hasegawa-Johnson DRL 48 48 0 26 Mar 2022
DGC-vector: A new speaker embedding for zero-shot voice conversion Ruitong Xiao Haitong Zhang Yue Lin 54 12 0 18 Mar 2022
Text-free non-parallel many-to-many voice conversion using normalising flows Thomas Merritt Abdelhamid Ezzerg Piotr Bilinski Magdalena Proszewska Kamil Pokora Roberto Barra-Chicote Daniel Korzekwa 114 15 0 15 Mar 2022
iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform Takuhiro Kaneko Kou Tanaka Hirokazu Kameoka Shogo Seki 89 62 0 04 Mar 2022
Learning the Beauty in Songs: Neural Singing Voice Beautifier Jinglin Liu Chengxi Li Yi Ren Zhiying Zhu Zhou Zhao DiffM 94 17 0 27 Feb 2022
Retriever: Learning Content-Style Representation as a Token-Level Bipartite Graph Dacheng Yin Xuanchi Ren Chong Luo Yuwang Wang Zhiwei Xiong Wenjun Zeng 114 13 0 24 Feb 2022
DRVC: A Framework of Any-to-Any Voice Conversion with Self-Supervised Learning Qiqi Wang Xulong Zhang Jianzong Wang Ning Cheng Jing Xiao DRL 116 23 0 22 Feb 2022
Cross-speaker style transfer for text-to-speech using data augmentation M. Ribeiro Julian Roth Giulia Comini Goeric Huybrechts Adam Gabry's Jaime Lorenzo-Trueba 66 21 0 10 Feb 2022
The HCCL-DKU system for fake audio generation task of the 2022 ICASSP ADD Challenge Ziyi Chen Hua Hua Yuxiang Zhang Ming Li Pengyuan Zhang 102 0 0 29 Jan 2022
Noise-robust voice conversion with domain adversarial training Hongqiang Du Lei Xie Haizhou Li 66 12 0 26 Jan 2022
Invertible Voice Conversion Zexin Cai Ming Li BDL 71 1 0 26 Jan 2022
DFA-NeRF: Personalized Talking Head Generation via Disentangled Face Attributes Neural Rendering Shunyu Yao Ruizhe Zhong Yichao Yan Guangtao Zhai Xiaokang Yang CVBM 71 93 0 03 Jan 2022
IQDUBBING: Prosody modeling based on discrete self-supervised speech representation for expressive voice conversion Wendong Gan Bolong Wen Yin Yan Haitao Chen Zhichao Wang Hongqiang Du Lei Xie Kaixuan Guo Hai Li 85 14 0 02 Jan 2022
Training Robust Zero-Shot Voice Conversion Models with Self-supervised Features Trung D. Q. Dang Dung T. Tran Peter Chin K. Koishida SSL 69 15 0 08 Dec 2021
Conditional Deep Hierarchical Variational Autoencoder for Voice Conversion K. Akuzawa Kotaro Onishi Keisuke Takiguchi Kohki Mametani K. Mori BDL DRL 70 7 0 06 Dec 2021
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone Edresson Casanova Julian Weber C. Shulby Arnaldo Cândido Júnior Eren Golge M. Ponti 246 415 0 04 Dec 2021
One-shot Voice Conversion For Style Transfer Based On Speaker Adaptation Zhichao Wang Qicong Xie Tao Li Hongqiang Du Lei Xie Pengcheng Zhu Mengxiao Bi 52 11 0 24 Nov 2021
Zero-shot Singing Technique Conversion Brendan O'Connor S. Dixon Georgy Fazekas 58 5 0 16 Nov 2021
AC-VC: Non-parallel Low Latency Phonetic Posteriorgrams Based Voice Conversion Damien Ronssin Milos Cernak 78 11 0 12 Nov 2021
SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System for Both Human Beings and Machines Haozhe Zhang Zexin Cai Xiaoyi Qin Ming Li 91 15 0 06 Nov 2021
Voice Conversion Can Improve ASR in Very Low-Resource Settings Matthew Baas Herman Kamper 99 17 0 04 Nov 2021
A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion Benjamin van Niekerk M. Carbonneau Julian Zaïdi Matthew Baas Hugo Seuté Herman Kamper DRL 116 123 0 03 Nov 2021
Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations Hyeong-Seok Choi Juheon Lee W. Kim Jie Hwan Lee Hoon Heo Kyogu Lee 109 158 0 27 Oct 2021
Zero-shot Voice Conversion via Self-supervised Prosody Representation Learning Shijun Wang Dimche Kostadinov Damian Borth 86 11 0 27 Oct 2021
Disentanglement of Emotional Style and Speaker Identity for Expressive Voice Conversion Zongyang Du Berrak Sisman Kun Zhou Haizhou Li 93 24 0 20 Oct 2021
Speech Enhancement-assisted Voice Conversion in Noisy Environments Yun-Ju Chan Chiang-Jen Peng Syu-Siang Wang Hsin-Min Wang Yu Tsao T. Chi 88 2 0 19 Oct 2021
CycleFlow: Purify Information Factors by Cycle Loss Haoran Sun Chen Chen Lantian Li Dong Wang 65 1 0 18 Oct 2021
Toward Degradation-Robust Voice Conversion Chien-yu Huang Kai-Wei Chang Hung-yi Lee 85 9 0 14 Oct 2021
Voice Reenactment with F0 and timing constraints and adversarial learning of conversions F. Bous L. Benaroya Nicolas Obin Axel Roebel 50 2 0 07 Oct 2021
Style Equalization: Unsupervised Learning of Controllable Generative Sequence Models Jen-Hao Rick Chang A. Shrivastava H. Koppula Xiaoshuai Zhang Oncel Tuzel DiffM 111 16 0 06 Oct 2021
Decoupling Speaker-Independent Emotions for Voice Conversion Via Source-Filter Networks Zhaojie Luo Shoufeng Lin Rui Liu Jun Baba Yuichiro Yoshikawa H. Ishiguro 39 9 0 04 Oct 2021
Multimodal Emotion Recognition with High-level Speech and Text Features M. R. Makiuchi Kuniaki Uto Koichi Shinoda 77 72 0 29 Sep 2021
Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling Scheme Vadim Popov Ivan Vovk Vladimir Gogoryan Tasnima Sadekova Mikhail Kudinov Jiansheng Wei DiffM BDL 149 136 0 28 Sep 2021
Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation Yuanxun Lu Jinxiang Chai Xun Cao 95 89 0 22 Sep 2021
"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World Emily Wenger Max Bronckers Christian Cianfarani Jenna Cryan Angela Sha Haitao Zheng Ben Y. Zhao AAML 79 40 0 20 Sep 2021