v1v2v3 (latest)

MOSNet: Deep Learning based Objective Assessment for Voice Conversion

17 April 2019

Xin Wang

Papers citing "MOSNet: Deep Learning based Objective Assessment for Voice Conversion"

40 / 140 papers shown

Title
HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement Pavel Andreev Aibek Alanov Oleg Ivanov Dmitry Vetrov 94 43 0 24 Mar 2022
A Text-to-Speech Pipeline, Evaluation Methodology, and Initial Fine-Tuning Results for Child Speech Synthesis Rishabh Jain Mariam Yiwere Dan Bigioi Peter Corcoran H. Cucu 69 14 0 22 Mar 2022
Residual-Guided Non-Intrusive Speech Quality Assessment Zhe Ye Jiahao Chen Diqun Yan 35 0 0 22 Mar 2022
The VoiceMOS Challenge 2022 Wen-Chin Huang Erica Cooper Yu Tsao Hsin-Min Wang Tomoki Toda Junichi Yamagishi 118 108 0 21 Mar 2022
ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis Jinlong Xue Yayue Deng Yichen Han Ya Li Jianqing Sun Jiaen Liang 51 8 0 20 Mar 2022
Retriever: Learning Content-Style Representation as a Token-Level Bipartite Graph Dacheng Yin Xuanchi Ren Chong Luo Yuwang Wang Zhiwei Xiong Wenjun Zeng 114 13 0 24 Feb 2022
Visual Acoustic Matching Changan Chen Ruohan Gao P. Calamia Kristen Grauman 77 58 0 14 Feb 2022
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem Jing Shi Xuankai Chang Tomoki Hayashi Yen-Ju Lu Shinji Watanabe Bo Xu 105 19 0 17 Dec 2021
Training Robust Zero-Shot Voice Conversion Models with Self-supervised Features Trung D. Q. Dang Dung T. Tran Peter Chin K. Koishida SSL 69 15 0 08 Dec 2021
HASA-net: A non-intrusive hearing-aid speech assessment network Hsin-Tien Chiang Yi-Chiao Wu Cheng Yu Tomoki Toda Hsin-Min Wang Yih-Chun Hu Yu Tsao 63 12 0 10 Nov 2021
Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech Sung-Feng Huang Chyi-Jiunn Lin Da-Rong Liu Yi-Chen Chen Hung-yi Lee 126 57 0 07 Nov 2021
InQSS: a speech intelligibility and quality assessment model using a multi-task learning network Yu-Wen Chen Yu Tsao 49 13 0 04 Nov 2021
Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features Ryandhimas E. Zezario Szu-Wei Fu Fei Chen C. Fuh Hsin-Min Wang Yu Tsao DiffM 85 82 0 03 Nov 2021
CycleFlow: Purify Information Factors by Cycle Loss Haoran Sun Chen Chen Lantian Li Dong Wang 63 1 0 18 Oct 2021
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech Wen-Chin Huang Erica Cooper Junichi Yamagishi Tomoki Toda 65 77 0 18 Oct 2021
StrengthNet: Deep Learning-based Emotion Strength Assessment for Emotional Speech Synthesis Rui Liu Berrak Sisman Haizhou Li 112 2 0 07 Oct 2021
NORESQA: A Framework for Speech Quality Assessment using Non-Matching References Pranay Manocha Buye Xu Anurag Kumar 98 49 0 16 Sep 2021
StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion Yinghao Aaron Li A. Zare N. Mesgarani 97 101 0 21 Jul 2021
SVSNet: An End-to-end Speaker Voice Similarity Assessment Model Cheng-Hung Hu Yu-Huai Peng Junichi Yamagishi Yu Tsao Hsin-Min Wang 48 5 0 20 Jul 2021
Improving Security in McAdams Coefficient-Based Speaker Anonymization by Watermarking Method Candy Olivia Mawalim M. Unoki 61 2 0 15 Jul 2021
Deep Learning Based Assessment of Synthetic Speech Naturalness Gabriel Mittag Sebastian Möller 90 64 0 23 Apr 2021
Bias-Aware Loss for Training Image and Speech Quality Prediction Models from Multiple Datasets Gabriel Mittag Saman Zadtootaghaj Thilo Michael Babak Naderi Sebastian Möller 69 10 0 20 Apr 2021
Utilizing Self-supervised Representations for MOS Prediction Wei-Cheng Tseng Chien-yu Huang Wei-Tsung Kao Yist Y. Lin Hung-yi Lee SSL 105 65 0 07 Apr 2021
S2VC: A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained Representations Jheng-hao Lin Yist Y. Lin C. Chien Hung-yi Lee 147 56 0 07 Apr 2021
MetricNet: Towards Improved Modeling For Non-Intrusive Speech Quality Assessment Meng Yu Chunlei Zhang Yong-mei Xu Shi-Xiong Zhang Dong Yu 60 31 0 02 Apr 2021
crank: An Open-Source Software for Nonparallel Voice Conversion Based on Vector-Quantized Variational Autoencoder Kazuhiro Kobayashi Wen-Chin Huang Yi-Chiao Wu Patrick Lumban Tobing Tomoki Hayashi Tomoki Toda BDL DRL 65 19 0 04 Mar 2021
MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network Yichong Leng Xu Tan Sheng Zhao Frank Soong Xiang-Yang Li Tao Qin 88 96 0 27 Feb 2021
CDPAM: Contrastive learning for perceptual audio similarity Pranay Manocha Zeyu Jin Richard Y. Zhang Adam Finkelstein 94 69 0 09 Feb 2021
Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech Yeunju Choi Youngmoon Jung Youngjoo Suh Hoirin Kim 125 6 0 02 Nov 2020
DNSMOS: A Non-Intrusive Perceptual Objective Speech Quality metric to evaluate Noise Suppressors Chandan K. A. Reddy Vishak Gopal Ross Cutler 114 316 0 28 Oct 2020
The NeteaseGames System for Voice Conversion Challenge 2020 with Vector-quantization Variational Autoencoder and WaveNet Haitong Zhang DRL 21 4 0 15 Oct 2020
SESQA: semi-supervised learning for speech quality assessment Joan Serrà Jordi Pons Santiago Pascual 79 42 0 01 Oct 2020
Predictions of Subjective Ratings and Spoofing Assessments of Voice Conversion Challenge 2020 Submissions Rohan Kumar Das Tomi Kinnunen Wen-Chin Huang Zhenhua Ling Junichi Yamagishi Yi Zhao Xiaohai Tian Tomoki Toda 74 53 0 08 Sep 2020
Deep MOS Predictor for Synthetic Speech Using Cluster-Based Modeling Yeunju Choi Youngmoon Jung Hoirin Kim 139 26 0 09 Aug 2020
An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning Berrak Sisman Junichi Yamagishi Simon King Haizhou Li BDL 137 329 0 09 Aug 2020
Expressive TTS Training with Frame and Style Reconstruction Loss Rui Liu Berrak Sisman Guanglai Gao Haizhou Li 112 73 0 04 Aug 2020
Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning With Spoofing Detection and Spoofing Type Classification Yeunju Choi Youngmoon Jung Hoirin Kim 105 27 0 16 Jul 2020
An ASR Guided Speech Intelligibility Measure for TTS Model Selection Arun Baby Saranya Vinnaitherthan Nagaraj Adiga Pranav Jawale Sumukh Badam Sharath Adavanne Srikanth Konjeti 36 7 0 02 Jun 2020
Comparison of Speech Representations for Automatic Quality Estimation in Multi-Speaker Text-to-Speech Synthesis Jennifer Williams Joanna Rownicka P. Oplustil Simon King 103 25 0 28 Feb 2020
MoEVC: A Mixture-of-experts Voice Conversion System with Sparse Gating Mechanism for Accelerating Online Computation Yu-Tao Chang Yuan-Hong Yang Yu-Huai Peng Syu-Siang Wang T. Chi Yu Tsao Hsin-Min Wang MoE 31 0 0 27 Dec 2019