Title
ReverbMiipher: Generative Speech Restoration meets Reverberation Characteristics Controllability Wataru Nakata Yuma Koizumi Shigeki Karita Robin Scheibler Haruko Ishikawa Adriana Guevara-Rukoz Heiga Zen M. Bacchiani 48 0 0 08 May 2025
Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration Shigeki Karita Yuma Koizumi Heiga Zen Haruko Ishikawa Robin Scheibler M. Bacchiani VLM 172 1 0 07 May 2025
Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning Chung-Ming Chien Andros Tjandra Apoorv Vyas Matt Le Bowen Shi Wei-Ning Hsu 32 0 0 10 Jun 2024
LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus Yuma Koizumi Heiga Zen Shigeki Karita Yifan Ding Kohei Yatabe Nobuyuki Morioka M. Bacchiani Yu Zhang Wei Han Ankur Bapna 41 66 0 30 May 2023
EE-TTS: Emphatic Expressive TTS with Linguistic Information Yifan Zhong Chen Zhang Xule Liu Chenxi Sun Weishan Deng Haifeng Hu Zhongqian Sun 15 3 0 20 May 2023
Personalized Lightweight Text-to-Speech: Voice Cloning with Adaptive Structured Pruning Sung-Feng Huang Chia-Ping Chen Zhi-Sheng Chen Yu-Pao Tsai Hung-yi Lee 25 2 0 21 Mar 2023
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers Chengyi Wang Sanyuan Chen Yu-Huan Wu Zi-Hua Zhang Long Zhou ... Huaming Wang Jinyu Li Lei He Sheng Zhao Furu Wei 48 641 0 05 Jan 2023
Towards zero-shot Text-based voice editing using acoustic context conditioning, utterance embeddings, and reference encoders Jason Fong Yun Wang Prabhav Agrawal Vimal Manohar Jilong Wu Thilo Kohler Qing He 15 0 0 28 Oct 2022
AutoLV: Automatic Lecture Video Generator Wen Wang Yang Song Sanjay Jha VGen 16 3 0 19 Sep 2022
AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation Kun Song Heyang Xue Xinsheng Wang Jian Cong Yongmao Zhang Linfu Xie Bing Yang Xiong Zhang Dan Su 13 5 0 01 Jun 2022
Self-supervised learning for robust voice cloning Konstantinos Klapsas Nikolaos Ellinas Karolos Nikitaras G. Vamvoukakis Panos Kakoulidis ... S. Raptis June Sig Sung Gunu Jho Aimilios Chalamandaris Pirros Tsiakoulis SSL 27 6 0 07 Apr 2022
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis Karren D. Yang Dejan Marković Steven Krenn Vasu Agrawal Alexander Richard VGen 16 32 0 31 Mar 2022
Improve few-shot voice cloning using multi-modal learning Haitong Zhang Yue Lin 13 8 0 18 Mar 2022
Speaker Adaption with Intuitive Prosodic Features for Statistical Parametric Speech Synthesis Pengyu Cheng Zhenhua Ling 19 3 0 02 Mar 2022
Voice Filter: Few-shot text-to-speech speaker adaptation using voice conversion as a post-processing module Adam Gabry's Goeric Huybrechts M. Ribeiro C. Chien Julian Roth Giulia Comini Roberto Barra-Chicote Bartek Perz Jaime Lorenzo-Trueba 28 21 0 16 Feb 2022
V2C: Visual Voice Cloning Qi Chen Yuanqing Li Yuankai Qi Jiaqiu Zhou Mingkui Tan Qi Wu VGen 33 23 0 25 Nov 2021
Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech Sung-Feng Huang Chyi-Jiunn Lin Da-Rong Liu Yi-Chen Chen Hung-yi Lee 10 56 0 07 Nov 2021
GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints Ji-Hoon Kim Sang-Hoon Lee Ji-Hyun Lee Hong G Jung Seong-Whan Lee 39 6 0 16 Aug 2021
A Survey on Neural Speech Synthesis Xu Tan Tao Qin Frank Soong Tie-Yan Liu AI4TS 18 352 0 29 Jun 2021
GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis Jinhyeok Yang Jaesung Bae Taejun Bak Young-Ik Kim Hoon-Young Cho 26 36 0 29 Jun 2021
AI based Presentation Creator With Customized Audio Content Delivery Muvazima Mansoor Srikanth Chandar Ramamoorthy Srinath 18 0 0 27 Jun 2021
AdaSpeech: Adaptive Text to Speech for Custom Voice Mingjian Chen Xu Tan Bohan Li Yanqing Liu Tao Qin Sheng Zhao Tie-Yan Liu VLM DiffM 23 187 0 01 Mar 2021
Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech Yiling Huang Yutian Chen Jason W. Pelecanos Quan Wang 25 11 0 24 Nov 2020
Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding Seungwoo Choi Seungju Han Dongyoung Kim S. Ha 24 65 0 18 May 2020
Weakly Supervised Disentanglement with Guarantees Rui Shu Yining Chen Abhishek Kumar Stefano Ermon Ben Poole CoGe DRL 28 136 0 22 Oct 2019
Low Bit-Rate Speech Coding with VQ-VAE and a WaveNet Decoder Cristina Garbacea Aaron van den Oord Yazhe Li Felicia S. C. Lim Alejandro Luebs Oriol Vinyals Thomas C. Walters 15 120 0 14 Oct 2019
Modular Meta-Learning with Shrinkage Yutian Chen A. Friesen Feryal M. P. Behbahani Arnaud Doucet David Budden Matthew W. Hoffman Nando de Freitas KELM OffRL 15 35 0 12 Sep 2019
Human Languages in Source Code: Auto-Translation for Localized Instruction Chris Piech Sami Abu-El-Haija SyDa 21 7 0 10 Sep 2019
Learning Compositional Neural Programs with Recursive Tree Search and Planning Thomas Pierrot Guillaume Ligner Scott E. Reed Olivier Sigaud Nicolas Perrin Alexandre Laterre David Kas Karim Beguir Nando de Freitas 33 41 0 30 May 2019
Non-Autoregressive Neural Text-to-Speech Kainan Peng Ming-Yu Liu Z. Song Kexin Zhao 27 39 0 21 May 2019
Almost Unsupervised Text to Speech and Automatic Speech Recognition Yi Ren Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu 44 101 0 13 May 2019
Meta-learning of Sequential Strategies Pedro A. Ortega Jane X. Wang Mark Rowland Tim Genewein Z. Kurth-Nelson ... Yee Whye Teh H. V. Hasselt Nando de Freitas M. Botvinick Shane Legg OffRL 22 96 0 08 May 2019
High quality, lightweight and adaptable TTS using LPCNet Zvi Kons Slava Shechtman A. Sorin Carmel Rabinovitz R. Hoory 15 54 0 02 May 2019
TTS Skins: Speaker Conversion via ASR Adam Polyak Lior Wolf Yaniv Taigman 13 27 0 18 Apr 2019
Direct speech-to-speech translation with a sequence-to-sequence model Ye Jia Ron J. Weiss Fadi Biadsy Wolfgang Macherey Melvin Johnson Z. Chen Yonghui Wu 15 222 0 12 Apr 2019
Data Efficient Voice Cloning for Neural Singing Synthesis Merlijn Blaauw J. Bonada R. Daido 22 33 0 19 Feb 2019
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Z. Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 207 820 0 12 Jun 2018
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 338 11,684 0 09 Mar 2017
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016
Pixel Recurrent Neural Networks Aaron van den Oord Nal Kalchbrenner Koray Kavukcuoglu SSeg GAN 239 2,550 0 25 Jan 2016