v1v2v3 (latest)

CSS10: A Collection of Single Speaker Speech Datasets for 10 Languages

27 March 2019

Papers citing "CSS10: A Collection of Single Speaker Speech Datasets for 10 Languages"

30 / 30 papers shown

Title
The Greek podcast corpus: Competitive speech models for low-resourced languages with weakly supervised data Georgios Paraskevopoulos Chara Tsoukala Athanasios Katsamanis Vassilis Katsouros OffRL 155 1 0 21 Jun 2024
ZMM-TTS: Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations Cheng Gong Xin Wang Erica Cooper Dan Wells Longbiao Wang Jianwu Dang Korin Richmond Junichi Yamagishi 116 25 0 22 Dec 2023
BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric Mingda Chen Paul-Ambroise Duquenne Pierre Yves Andrews Justine T. Kao Alexandre Mourachko Holger Schwenk Marta R. Costa-jussá 70 18 0 16 Dec 2022
German Phoneme Recognition with Text-to-Phoneme Data Augmentation Dojun Park Seohyun Park 21 0 0 24 Nov 2022
SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations Paul-Ambroise Duquenne Hongyu Gong Ning Dong Jingfei Du Ann Lee Vedanuj Goswani Changhan Wang J. Pino Benoît Sagot Holger Schwenk 102 38 0 08 Nov 2022
An Empirical Study on L2 Accents of Cross-lingual Text-to-Speech Systems via Vowel Space Jihwan Lee Jaesung Bae Seongkyu Mun Heejin Choi Joun Yeop Lee Hoon-Young Cho Chanwoo Kim 67 2 0 06 Nov 2022
Low-Resource Multilingual and Zero-Shot Multispeaker TTS Florian Lux Julia Koch Ngoc Thang Vu 107 23 0 21 Oct 2022
Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding Wei-Ping Huang Po-Chun Chen Sung-Feng Huang Hung-yi Lee 72 1 0 27 Jun 2022
Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue History Yuto Nishimura Yuki Saito Shinnosuke Takamichi Kentaro Tachibana Hiroshi Saruwatari AI4TS 59 8 0 16 Jun 2022
GWA: A Large High-Quality Acoustic Dataset for Audio Processing Zhenyu Tang R. Aralikatti Anton Ratnarajah Tianyi Zhou 121 33 0 04 Apr 2022
Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech Recognition Junrui Ni Liming Wang Heting Gao Kaizhi Qian Yang Zhang Shiyu Chang M. Hasegawa-Johnson 78 25 0 29 Mar 2022
Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with Articulatory Features Florian Lux Ngoc Thang Vu 99 29 0 07 Mar 2022
Textless Speech-to-Speech Translation on Real Data Ann Lee Hongyu Gong Paul-Ambroise Duquenne Holger Schwenk Peng-Jen Chen ... Sravya Popuri Yossi Adi J. Pino Jiatao Gu Wei-Ning Hsu 99 150 0 15 Dec 2021
A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion Benjamin van Niekerk M. Carbonneau Julian Zaïdi Matthew Baas Hugo Seuté Herman Kamper DRL 116 123 0 03 Nov 2021
Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations Hyeong-Seok Choi Juheon Lee W. Kim Jie Hwan Lee Hoon Heo Kyogu Lee 109 158 0 27 Oct 2021
Assessing Evaluation Metrics for Speech-to-Speech Translation Elizabeth Salesky Julian Mäder Severin Klinger 74 15 0 26 Oct 2021
From Start to Finish: Latency Reduction Strategies for Incremental Speech Synthesis in Simultaneous Speech-to-Speech Translation Danni Liu Changhan Wang Hongyu Gong Xutai Ma Yun Tang J. Pino 98 4 0 15 Oct 2021
Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis Mu Yang Shaojin Ding Tianlong Chen Tong Wang Zhangyang Wang CLL 73 5 0 09 Oct 2021
On Prosody Modeling for ASR+TTS based Voice Conversion Wen-Chin Huang Tomoki Hayashi Xinjian Li Shinji Watanabe Tomoki Toda 73 9 0 20 Jul 2021
A Survey on Neural Speech Synthesis Xu Tan Tao Qin Frank Soong Tie-Yan Liu AI4TS 133 359 0 29 Jun 2021
Review of end-to-end speech synthesis technology based on deep learning Zhaoxi Mu Xinyu Yang Yizhuo Dong AuLLM ALM 94 25 0 20 Apr 2021
A Toolbox for Construction and Analysis of Speech Datasets Evelina Bakhturina Vitaly Lavrukhin Boris Ginsburg 48 12 0 11 Apr 2021
Continual Speaker Adaptation for Text-to-Speech Synthesis Hamed Hemati Damian Borth CLL 77 9 0 26 Mar 2021
SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German Pelin Dogan-Schönberger Julian Mäder Thomas Hofmann 57 30 0 21 Mar 2021
Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform Generation in Multiple Domains Won Jang D. Lim Jaesam Yoon 60 34 0 19 Nov 2020
The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS Wen-Chin Huang Tomoki Hayashi Shinji Watanabe Tomoki Toda DRL 81 40 0 06 Oct 2020
One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech Tomás Nekvinda Ondrej Dusek 72 57 0 03 Aug 2020
Embodied Self-supervised Learning by Coordinated Sampling and Training Yifan Sun Xihong Wu SSL 56 7 0 20 Jun 2020
Investigation of learning abilities on linguistic features in sequence-to-sequence text-to-speech synthesis Yusuke Yasuda Xin Wang Junichi Yamagishi AI4TS 76 31 0 20 May 2020
Learning pronunciation from a foreign language in speech synthesis networks Younggun Lee Suwon Shon Taesu Kim 58 28 0 23 Nov 2018