Deep Learning Based Assessment of Synthetic Speech Naturalness

23 April 2021

Sebastian Möller

Papers citing "Deep Learning Based Assessment of Synthetic Speech Naturalness"

33 / 33 papers shown

Title
Pairwise Evaluation of Accent Similarity in Speech Synthesis Jinzuomu Zhong Suyuan Liu Dan Wells Korin Richmond 90 0 0 20 May 2025
Naturalness-Aware Curriculum Learning with Dynamic Temperature for Speech Deepfake Detection Taewoo Kim Guisik Kim Choongsang Cho Young Han Lee 56 0 0 20 May 2025
VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning Qianyue Hu Junyan Wu Wei Lu Xiangyang Luo DiffM AAML 97 0 0 18 May 2025
Building a Taiwanese Mandarin Spoken Language Model: A First Attempt Chih-Kai Yang Yu-Kuan Fu Chen-An Li Yi-Cheng Lin Yu-Xiang Lin ... Ulin Sanga Xuanjun Chen Po-Chun Hsu Shu-Wen Yang Hung-yi Lee AuLLM 99 5 0 11 Nov 2024
Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap Guanrou Yang Fan Yu Zejun Ma Zhihao Du Zhifu Gao Shiliang Zhang Xie Chen 100 6 0 22 Oct 2024
On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition Nick Rossenbach Ralf Schluter S. Sakti 71 2 0 31 Jul 2024
1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis Sewade Ogun A. Owodunni Tobi Olatunji Eniola Alese Babatunde Oladimeji Tejumade Afonja Kayode Olaleye Naome A. Etori Tosin Adewumi 92 6 0 17 Jun 2024
Addressing Index Collapse of Large-Codebook Speech Tokenizer with Dual-Decoding Product-Quantized Variational Auto-Encoder Haohan Guo Fenglong Xie Dongchao Yang Hui Lu Xixin Wu Helen Meng 102 6 0 05 Jun 2024
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation Chenyang Le Yao Qian Dongmei Wang Long Zhou Shujie Liu ... Midia Yousefi Yanmin Qian Jinyu Li Sheng Zhao Michael Zeng 86 3 0 28 May 2024
CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations Leying Zhang Yao Qian Long Zhou Shujie Liu Dongmei Wang ... Yanmin Qian Jinyu Li Lei He Sheng Zhao Michael Zeng 65 2 0 10 Apr 2024
Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation Rohan Chaudhury Mihir Godbole Aakash Garg Jinsil Hwaryoung Seo 75 0 0 31 Mar 2024
Boosting Large Language Model for Speech Synthesis: An Empirical Study Hong-ping Hao Long Zhou Shujie Liu Jinyu Li Shujie Hu Rui Wang Furu Wei 116 19 0 30 Dec 2023
EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech Daria Diatlova V. Shutov 93 9 0 28 Jun 2023
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation Tianrui Wang Long Zhou Zi-Hua Zhang Yu-Huan Wu Shujie Liu Yashesh Gaur Zhuo Chen Jinyu Li Furu Wei 92 106 0 25 May 2023
Iteratively Improving Speech Recognition and Voice Conversion Mayank Singh Naoya Takahashi Ono Naoyuki 51 4 0 24 May 2023
Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022 Taras Kucherenko Pieter Wolfert Youngwoo Yoon Carla Viegas Teodor Nikolov Mihail Tsakov G. Henter 69 24 0 15 Mar 2023
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling Zi-Hua Zhang Long Zhou Chengyi Wang Sanyuan Chen Yu Wu ... Huaming Wang Jinyu Li Lei He Sheng Zhao Furu Wei VLM 100 187 0 07 Mar 2023
Cross-modal Face- and Voice-style Transfer Naoya Takahashi M. Singh Yuki Mitsufuji CVBM 87 2 0 27 Feb 2023
Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using Prosodic and Linguistic Features Alexandra Vioni Georgia Maniati Nikolaos Ellinas June Sig Sung Inchul Hwang Aimilios Chalamandaris Pirros Tsiakoulis 95 5 0 01 Nov 2022
RedPen: Region- and Reason-Annotated Dataset of Unnatural Speech Kyumin Park Keon Lee Daeyoung Kim Dongyeop Kang 52 0 0 26 Oct 2022
Robust One-Shot Singing Voice Conversion Naoya Takahashi M. Singh Yuki Mitsufuji DiffM 114 8 0 20 Oct 2022
Predicting pairwise preferences between TTS audio stimuli using parallel ratings data and anti-symmetric twin neural networks Cassia Valentini-Botinhao M. Ribeiro O. Watts Korin Richmond G. Henter 32 2 0 22 Sep 2022
The GENEA Challenge 2022: A large evaluation of data-driven co-speech gesture generation Youngwoo Yoon Pieter Wolfert Taras Kucherenko Carla Viegas Teodor Nikolov Mihail Tsakov G. Henter VGen 82 81 0 22 Aug 2022
Wideband Audio Waveform Evaluation Networks: Efficient, Accurate Estimation of Speech Qualities Andrew A. Catellier S. Voran 58 3 0 27 Jun 2022
Learning and controlling the source-filter representation of speech with a variational autoencoder Samir Sadok Simon Leglaive Laurent Girin Xavier Alameda-Pineda Renaud Séguier SSL DRL BDL 115 14 0 14 Apr 2022
SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural Text-to-Speech Synthesis Georgia Maniati Alexandra Vioni Nikolaos Ellinas Karolos Nikitaras Konstantinos Klapsas June Sig Sung Gunu Jho Aimilios Chalamandaris Pirros Tsiakoulis 75 28 0 06 Apr 2022
The VoiceMOS Challenge 2022 Wen-Chin Huang Erica Cooper Yu Tsao Hsin-Min Wang Tomoki Toda Junichi Yamagishi 118 108 0 21 Mar 2022
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech Wen-Chin Huang Erica Cooper Junichi Yamagishi Tomoki Toda 65 77 0 18 Oct 2021
SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing Junyi Ao Rui Wang Long Zhou Chengyi Wang Shuo Ren ... Yu Zhang Zhihua Wei Yao Qian Jinyu Li Furu Wei 162 202 0 14 Oct 2021
Facetron: A Multi-speaker Face-to-Speech Model based on Cross-modal Latent Representations Seyun Um Jihyun Kim Jihyun Lee Hong-Goo Kang CVBM 137 4 0 26 Jul 2021
SVSNet: An End-to-end Speaker Voice Similarity Assessment Model Cheng-Hung Hu Yu-Huai Peng Junichi Yamagishi Yu Tsao Hsin-Min Wang 48 5 0 20 Jul 2021
Bias-Aware Loss for Training Image and Speech Quality Prediction Models from Multiple Datasets Gabriel Mittag Saman Zadtootaghaj Thilo Michael Babak Naderi Sebastian Möller 69 10 0 20 Apr 2021
A large, crowdsourced evaluation of gesture generation systems on common data: The GENEA Challenge 2020 Taras Kucherenko Patrik Jonell Youngwoo Yoon Pieter Wolfert G. Henter 69 75 0 23 Feb 2021