The Interspeech 2024 Challenge on Speech Processing Using Discrete Units

The Interspeech 2024 Challenge on Speech Processing Using Discrete Units

11 June 2024

Xuankai Chang

Jiatong Shi

Yihan Wu

Shinji Watanabe

Papers citing "The Interspeech 2024 Challenge on Speech Processing Using Discrete Units"

11 / 11 papers shown

Title
UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation Alexander H. Liu Sang-gil Lee Chao-Han Huck Yang Yuan Gong Yu-Chun Wang James Glass Rafael Valle Bryan Catanzaro SSL 42 0 0 02 Mar 2025
Discrete Speech Unit Extraction via Independent Component Analysis Tomohiko Nakamura Kwanghee Choi Keigo Hojo Yoshiaki Bando Satoru Fukayama Shinji Watanabe 40 0 0 11 Jan 2025
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models Heng-Jui Chang Hongyu Gong Changhan Wang James R. Glass Yu-An Chung 26 0 0 31 Oct 2024
Codec-SUPERB @ SLT 2024: A lightweight benchmark for neural audio codec models Haibin Wu Xuanjun Chen Yi-Cheng Lin Kaiwei Chang Jiawei Du ... Yi-Chiao Wu Xu Tan James Glass Shinji Watanabe Hung-yi Lee 16 0 0 21 Sep 2024
Preference Alignment Improves Language Model-Based TTS Jinchuan Tian Chunlei Zhang Jiatong Shi Hao Zhang Jianwei Yu Shinji Watanabe Dong Yu 25 7 0 19 Sep 2024
The T05 System for The VoiceMOS Challenge 2024: Transfer Learning from Deep Image Classifier to Naturalness MOS Prediction of High-Quality Synthetic Speech Kaito Baba Wataru Nakata Yuki Saito Hiroshi Saruwatari VLM 18 7 0 14 Sep 2024
Exploring SSL Discrete Tokens for Multilingual ASR Mingyu Cui Daxin Tan Yifan Yang Dingdong Wang Huimeng Wang Xiao Chen Xie Chen Xunying Liu 23 1 0 13 Sep 2024
Muskits-ESPnet: A Comprehensive Toolkit for Singing Voice Synthesis in New Paradigm Yuning Wu Jiatong Shi Yifeng Yu Yuxun Tang Tao Qian Yueqian Lin Jionghao Han Xinyi Bai Shinji Watanabe Qin Jin 23 3 0 11 Sep 2024
SingMOS: An extensive Open-Source Singing Voice Dataset for MOS Prediction Yuxun Tang Jiatong Shi Yuning Wu Qin Jin 16 8 0 16 Jun 2024
E-Branchformer: Branchformer with Enhanced merging for speech recognition Kwangyoun Kim Felix Wu Yifan Peng Jing Pan Prashant Sridhar Kyu Jeong Han Shinji Watanabe 31 104 0 30 Sep 2022
Generative Spoken Language Modeling from Raw Audio Kushal Lakhotia Evgeny Kharitonov Wei-Ning Hsu Yossi Adi Adam Polyak ... Tu Nguyen Jade Copet Alexei Baevski A. Mohamed Emmanuel Dupoux AuLLM 174 336 0 01 Feb 2021