JVS corpus: free Japanese multi-speaker voice corpus

17 August 2019

Yuki Saito

Hiroshi Saruwatari

Papers citing "JVS corpus: free Japanese multi-speaker voice corpus"

32 / 32 papers shown

Title
TTSOps: A Closed-Loop Corpus Optimization Framework for Training Multi-Speaker TTS Models from Dark Data Kentaro Seki Shinnosuke Takamichi Takaaki Saeki Hiroshi Saruwatari 36 0 0 18 Jun 2025
Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation Rui Hu Xiaolong Lin Jiawang Liu Shixi Huang Zhenpeng Zhan 10 0 0 09 Jun 2025
Comparative Analysis of Fast and High-Fidelity Neural Vocoders for Low-Latency Streaming Synthesis in Resource-Constrained Environments Reo Yoneyama Masaya Kawamura Ryo Terashima Ryuichi Yamamoto Tomoki Toda 109 0 0 04 Jun 2025
Prosodically Enhanced Foreign Accent Simulation by Discrete Token-based Resynthesis Only with Native Speech Corpora Kentaro Onda Keisuke Imoto Satoru Fukayama Daisuke Saito Nobuaki Minematsu 15 0 0 22 May 2025
Voice Cloning: Comprehensive Survey Hussam Azzuni Abdulmotaleb El Saddik VLM 112 0 0 01 May 2025
Generative Adversarial Network based Voice Conversion: Techniques, Challenges, and Recent Advancements Sandipan Dhar N. D. Jana Swagatam Das 77 0 0 27 Apr 2025
Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis Yizhong Geng Jizhuo Xu Zeyu Liang Jinghan Yang Xiaoyi Shi Xiaoyu Shen 58 0 0 10 Apr 2025
Analytic Study of Text-Free Speech Synthesis for Raw Audio using a Self-Supervised Learning Model Joonyong Park Daisuke Saito Nobuaki Minematsu 114 0 0 04 Dec 2024
Wavehax: Aliasing-Free Neural Waveform Synthesis Based on 2D Convolution and Harmonic Prior for Reliable Complex Spectrogram Estimation Reo Yoneyama Atsushi Miyashita Ryuichi Yamamoto Tomoki Toda 63 2 0 11 Nov 2024
Spatial Voice Conversion: Voice Conversion Preserving Spatial Information and Non-target Signals Kentaro Seki Shinnosuke Takamichi Norihiro Takamune Yuki Saito Kanami Imamura Hiroshi Saruwatari 66 0 0 25 Jun 2024
Articulatory Encodec: Coding Speech through Vocal Tract Kinematics Cheol Jun Cho Peter Wu Tejas S. Prabhune Dhruv Agarwal Gopala K. Anumanchipalli 110 8 0 18 Jun 2024
mHuBERT-147: A Compact Multilingual HuBERT Model Marcely Zanon Boito Vivek Iyer Nikolaos Lagos Laurent Besacier Ioan Calapodescu VLM 143 20 0 10 Jun 2024
RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction Peng Liu Dongyang Dai Zhiyong Wu 144 3 0 08 Mar 2024
Phoneme-Based Proactive Anti-Eavesdropping with Controlled Recording Privilege Peng Huang Yao Wei Peng Cheng Zhongjie Ba Liwang Lu Feng Lin Yang Wang Kui Ren 62 0 0 28 Jan 2024
Electrolaryngeal Speech Intelligibility Enhancement Through Robust Linguistic Encoders Lester Phillip Violeta Wen-Chin Huang D. Ma Ryuichi Yamamoto Kazuhiro Kobayashi Tomoki Toda 70 5 0 18 Sep 2023
Diversity-based core-set selection for text-to-speech with linguistic and acoustic features Kentaro Seki Shinnosuke Takamichi Takaaki Saeki Hiroshi Saruwatari 76 4 0 15 Sep 2023
Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis Seong-Hyun Park Bohyung Kim Tae-Hyun Oh 75 1 0 26 May 2023
Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus Detai Xin Shinnosuke Takamichi Ai Morimatsu Hiroshi Saruwatari 59 10 0 21 May 2023
Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection Kentaro Seki Shinnosuke Takamichi Takaaki Saeki Hiroshi Saruwatari 95 8 0 26 Oct 2022
Talking Face Generation with Multilingual TTS Hyoung-Kyu Song Sanghyun Woo Junhyeok Lee S. Yang Hyunjae Cho Youseong Lee Dongho Choi Kang-Wook Kim CVBM 80 22 0 13 May 2022
Heterogeneous Target Speech Separation Hyunjae Cho Wonbin Jung Junhyeok Lee Paris Smaragdis Sanghyun Woo 92 26 0 07 Apr 2022
ESPnet2-TTS: Extending the Edge of TTS Research Tomoki Hayashi Ryuichi Yamamoto Takenori Yoshimura Peter Wu Jiatong Shi Takaaki Saeki Yooncheol Ju Yusuke Yasuda Shinnosuke Takamichi Shinji Watanabe VLM 85 63 0 15 Oct 2021
StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion Yinghao Aaron Li A. Zare N. Mesgarani 95 101 0 21 Jul 2021
High-Fidelity and Low-Latency Universal Neural Vocoder based on Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform Modeling Patrick Lumban Tobing Tomoki Toda 60 8 0 20 May 2021
Towards Listening to 10 People Simultaneously: An Efficient Permutation Invariant Training of Audio Source Separation Using Sinkhorn's Algorithm Hideyuki Tachibana 70 14 0 22 Oct 2020
JSSS: free Japanese speech corpus for summarization and simplification Shinnosuke Takamichi Mamoru Komachi Naoko Tanji Hiroshi Saruwatari 15 1 0 05 Oct 2020
Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes Kentaro Mitsui Tomoki Koriyama Hiroshi Saruwatari 39 5 0 07 Aug 2020
RWCP-SSD-Onomatopoeia: Onomatopoeic Word Dataset for Environmental Sound Synthesis Yuki Okamoto Keisuke Imoto Shinnosuke Takamichi Ryosuke Yamanishi Takahiro Fukumori Y. Yamashita 56 5 0 09 Jul 2020
Improved Prosody from Learned F0 Codebook Representations for VQ-VAE Speech Waveform Reconstruction Yi Zhao Haoyu Li Cheng-I Jeff Lai Jennifer Williams Erica Cooper Junichi Yamagishi 84 18 0 16 May 2020
Lifter Training and Sub-band Modeling for Computationally Efficient and High-Quality Voice Conversion Using Spectral Differentials Takaaki Saeki Yuki Saito Shinnosuke Takamichi Hiroshi Saruwatari 17 4 0 17 Feb 2020
JVS-MuSiC: Japanese multispeaker singing-voice corpus H. Tamaru Shinnosuke Takamichi Naoko Tanji Hiroshi Saruwatari 45 30 0 20 Jan 2020
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Text-to-Speech Toolkit Tomoki Hayashi Ryuichi Yamamoto Katsuki Inoue Takenori Yoshimura Shinji Watanabe Tomoki Toda K. Takeda Yu Zhang Xu Tan VLM 93 205 0 24 Oct 2019