StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks

6 June 2018

Papers citing "StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks"

48 / 48 papers shown

Title
Generative Adversarial Network based Voice Conversion: Techniques, Challenges, and Recent Advancements Sandipan Dhar N. D. Jana Swagatam Das 43 0 0 27 Apr 2025
Less is More for Synthetic Speech Detection in the Wild Ashi Garg Zexin Cai Henry Li Xinyuan Leibny Paola García-Perera Kevin Duh Sanjeev Khudanpur Matthew Wiesner Nicholas Andrews 74 0 0 17 Feb 2025
Outlier Detection Using Generative Models with Theoretical Performance Guarantees Jirong Yi A. D. Le Tianming Wang Xiaodong Wu Weiyu Xu 27 3 0 16 Oct 2023
Learn to Sing by Listening: Building Controllable Virtual Singer by Unsupervised Learning from Voice Recordings Wei Xue Yiwen Wang Qi-fei Liu Yi-Ting Guo 19 1 0 09 May 2023
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment Ruiqi Li Rongjie Huang Lichao Zhang Jinglin Liu Zhou Zhao 23 4 0 08 May 2023
TriAAN-VC: Triple Adaptive Attention Normalization for Any-to-Any Voice Conversion Hyun Joon Park Seok Woo Yang Jin Sob Kim Wooseok Shin S. W. Han 17 17 0 16 Mar 2023
Speaking Style Conversion in the Waveform Domain Using Discrete Self-Supervised Units Gallil Maimon Yossi Adi 21 13 0 19 Dec 2022
SpecRNet: Towards Faster and More Accessible Audio DeepFake Detection Piotr Kawa Marcin Plata P. Syga 24 14 0 12 Oct 2022
An Overview of Affective Speech Synthesis and Conversion in the Deep Learning Era Andreas Triantafyllopoulos Björn W. Schuller Gokcce .Iymen M. Sezgin Xiangheng He ... Shuo Liu Silvan Mertes Elisabeth André Ruibo Fu Jianhua Tao 15 53 0 06 Oct 2022
ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Speed Mei-Shuo Chen Z. Duan 22 10 0 23 Sep 2022
Learning Noise-independent Speech Representation for High-quality Voice Conversion for Noisy Target Speakers Liumeng Xue Shan Yang Na Hu Dan Su Linfu Xie 16 2 0 02 Jul 2022
Attack Agnostic Dataset: Towards Generalization and Stabilization of Audio DeepFake Detection Piotr Kawa Marcin Plata P. Syga AAML 41 23 0 27 Jun 2022
End-to-End Voice Conversion with Information Perturbation Qicong Xie Shan Yang Yinjiao Lei Linfu Xie Dan Su 12 7 0 15 Jun 2022
Speak Like a Dog: Human to Non-human creature Voice Conversion Kohei Suzuki Shoki Sakamoto T. Taniguchi Hirokazu Kameoka 19 2 0 09 Jun 2022
ContentVec: An Improved Self-Supervised Speech Representation by Disentangling Speakers Kaizhi Qian Yang Zhang Heting Gao Junrui Ni Cheng-I Jeff Lai David D. Cox M. Hasegawa-Johnson Shiyu Chang DRL 21 110 0 20 Apr 2022
Time Domain Adversarial Voice Conversion for ADD 2022 Cheng Wen Tingwei Guo Xi Tan Rui Yan Shuran Zhou Chuandong Xie Wei Zou Xiangang Li 16 4 0 19 Apr 2022
The HCCL-DKU system for fake audio generation task of the 2022 ICASSP ADD Challenge Ziyi Chen Hua Hua Yuxiang Zhang Ming Li Pengyuan Zhang 19 0 0 29 Jan 2022
Noise-robust voice conversion with domain adversarial training Hongqiang Du Lei Xie Haizhou Li 11 11 0 26 Jan 2022
Trusted Media Challenge Dataset and User Study Weiling Chen Sheng Lun Benjamin Chua Stefan Winkler See-Kiong Ng 21 8 0 13 Jan 2022
Towards Relatable Explainable AI with the Perceptual Process Wencan Zhang Brian Y. Lim AAML XAI 20 61 0 28 Dec 2021
How Deep Are the Fakes? Focusing on Audio Deepfake: A Survey Zahra Khanjani Gabrielle Watson V. P Janeja 23 25 0 28 Nov 2021
A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion Benjamin van Niekerk M. Carbonneau Julian Zaïdi Matthew Baas Hugo Seuté Herman Kamper DRL 16 111 0 03 Nov 2021
Zero-shot Voice Conversion via Self-supervised Prosody Representation Learning Shijun Wang Dimche Kostadinov Damian Borth 19 10 0 27 Oct 2021
Disentanglement of Emotional Style and Speaker Identity for Expressive Voice Conversion Zongyang Du Berrak Sisman Kun Zhou Haizhou Li 11 24 0 20 Oct 2021
Toward Degradation-Robust Voice Conversion Chien-yu Huang Kai-Wei Chang Hung-yi Lee 25 7 0 14 Oct 2021
Style Equalization: Unsupervised Learning of Controllable Generative Sequence Models Jen-Hao Rick Chang A. Shrivastava H. Koppula Xiaoshuai Zhang Oncel Tuzel DiffM 51 16 0 06 Oct 2021
StarGAN-VC+ASR: StarGAN-based Non-Parallel Voice Conversion Regularized by Automatic Speech Recognition Shoki Sakamoto Akira Taniguchi T. Taniguchi Hirokazu Kameoka BDL 17 5 0 10 Aug 2021
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion Disong Wang Liqun Deng Y. Yeung Xiao Chen Xunying Liu H. Meng DRL 14 136 0 18 Jun 2021
Emotional Voice Conversion: Theory, Databases and ESD Kun Zhou Berrak Sisman Rui Liu Haizhou Li 23 167 0 31 May 2021
Review of end-to-end speech synthesis technology based on deep learning Zhaoxi Mu Xinyu Yang Yizhuo Dong AuLLM ALM 13 24 0 20 Apr 2021
Semi-supervised Learning for Singing Synthesis Timbre J. Bonada Merlijn Blaauw 19 4 0 05 Nov 2020
VAW-GAN for Disentanglement and Recomposition of Emotional Elements in Speech Kun Zhou Berrak Sisman Haizhou Li DRL 11 40 0 03 Nov 2020
AGAIN-VC: A One-shot Voice Conversion using Activation Guidance and Adaptive Instance Normalization Yen-Hao Chen Da-Yi Wu Tsung-Han Wu Hung-yi Lee 13 107 0 31 Oct 2020
CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram Conversion Takuhiro Kaneko Hirokazu Kameoka Kou Tanaka Nobukatsu Hojo 21 78 0 22 Oct 2020
Silent Speech Interfaces for Speech Restoration: A Review J. A. González-López Alejandro Gomez-Alanis Juan M. Martín-Donas J. L. Pérez-Córdoba A. Gómez 24 83 0 04 Sep 2020
An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning Berrak Sisman Junichi Yamagishi Simon King Haizhou Li BDL 27 316 0 09 Aug 2020
Adversarial representation learning for private speech generation David Ericsson Adam Östberg Edvin Listo Zec John Martinsson Olof Mogren 22 16 0 16 Jun 2020
HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial Networks Jiaqi Su Zeyu Jin Adam Finkelstein 19 136 0 10 Jun 2020
Contrastive Predictive Coding Supported Factorized Variational Autoencoder for Unsupervised Learning of Disentangled Speech Representations Janek Ebbers Michael Kuhlmann Tobias Cord-Landwehr Reinhold Haeb-Umbach DRL CoGe SSL 23 4 0 26 May 2020
Many-to-Many Voice Transformer Network Hirokazu Kameoka Wen-Chin Huang Kou Tanaka Takuhiro Kaneko Nobukatsu Hojo T. Toda ViT 17 30 0 18 May 2020
F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder Kaizhi Qian Zeyu Jin M. Hasegawa-Johnson G. J. Mysore 18 107 0 15 Apr 2020
Many-to-Many Voice Conversion using Conditional Cycle-Consistent Adversarial Networks Shindong Lee Bonggu Ko Keonnyeong Lee In-Chul Yoo Dongsuk Yook GAN 17 33 0 15 Feb 2020
DNN-based cross-lingual voice conversion using Bottleneck Features M. K. Reddy K. S. Rao 21 4 0 09 Sep 2019
Unsupervised Phoneme and Word Discovery from Multiple Speakers using Double Articulation Analyzer and Neural Network with Parametric Bias Ryo Nakashima Ryo Ozaki T. Taniguchi 11 6 0 21 Jun 2019
ET-GAN: Cross-Language Emotion Transfer Based on Cycle-Consistent Generative Adversarial Networks Xiaoqi Jia Jianwei Tai Hang Zhou Yakai Li Weijuan Zhang Haichao Du Qingjia Huang GAN 17 6 0 27 May 2019
Nonparallel Emotional Speech Conversion Jian Gao Deep Chakraborty H. Tembine Olaitan Olaleye 14 68 0 03 Nov 2018
ACVAE-VC: Non-parallel many-to-many voice conversion with auxiliary classifier variational autoencoder Hirokazu Kameoka Takuhiro Kaneko Kou Tanaka Nobukatsu Hojo DRL 6 59 0 13 Aug 2018
Rhythm-Flexible Voice Conversion without Parallel Data Using Cycle-GAN over Phoneme Posteriorgram Sequences Cheng-chieh Yeh Po-Chun Hsu Ju-Chieh Chou Hung-yi Lee Lin-Shan Lee 25 23 0 09 Aug 2018