Title
Modeling speech emotion with label variance and analyzing performance across speakers and unseen acoustic conditions Vikramjit Mitra Amrit Romana Dung T. Tran Erdrin Azemi 31 0 0 24 Mar 2025
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models Heng-Jui Chang Hongyu Gong Changhan Wang James R. Glass Yu-An Chung 26 0 0 31 Oct 2024
JOOCI: a Framework for Learning Comprehensive Speech Representations Hemant Yadav R. Shah Sunayana Sitaram 11 0 0 14 Oct 2024
Simulating Native Speaker Shadowing for Nonnative Speech Assessment with Latent Speech Representations Haopeng Geng Daisuke Saito Nobuaki Minematsu 17 0 0 18 Sep 2024
Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models Li-Wei Chen Takuya Higuchi He Bai Ahmed Hussen Abdelaziz Alexander Rudnicky Shinji Watanabe Tatiana Likhomanenko B. Theobald Zakaria Aldeneh 29 0 0 16 Sep 2024
Towards Automatic Assessment of Self-Supervised Speech Models using Rank Zakaria Aldeneh Vimal Thilak Takuya Higuchi B. Theobald Tatiana Likhomanenko SSL 65 0 0 16 Sep 2024
Ultra-Low Latency Speech Enhancement - A Comprehensive Study Haibin Wu Sebastian Braun 11 0 0 16 Sep 2024
Efficient Training of Self-Supervised Speech Foundation Models on a Compute Budget Andy T. Liu Yi-Cheng Lin Haibin Wu Stefan Winkler Hung-yi Lee 18 1 0 09 Sep 2024
Progressive Residual Extraction based Pre-training for Speech Representation Learning Tianrui Wang Jin Li Ziyang Ma Rui Cao Xie Chen ... Meng Ge Xiaobao Wang Yuguang Wang Jianwu Dang Nyima Tashi SSL 30 0 0 31 Aug 2024
ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks Nakamasa Inoue Shinta Otake Takumi Hirose Masanari Ohi Rei Kawakami 18 1 0 28 Jul 2024
SLIM: Style-Linguistics Mismatch Model for Generalized Audio Deepfake Detection Yi Zhu Surya Koppisetti Trang Tran Gaurav Bharaj 29 8 0 26 Jul 2024
AudioBench: A Universal Benchmark for Audio Large Language Models Bin Wang Xunlong Zou Geyu Lin S. Zhuohan Liu Wenyu Zhang Zhengyuan Liu AiTi Aw Nancy F. Chen AuLLM ELM LM&MA 85 17 0 23 Jun 2024
CoBERT: Self-Supervised Speech Representation Learning Through Code Representation Learning Chutong Meng Junyi Ao Tom Ko Mingxuan Wang Haizhou Li SSL 25 6 0 08 Oct 2022
CCC-wav2vec 2.0: Clustering aided Cross Contrastive Self-supervised learning of speech representations Vasista Sai Lodagala Sreyan Ghosh S. Umesh SSL 30 18 0 05 Oct 2022
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech Alexis Conneau Min Ma Simran Khanuja Yu Zhang Vera Axelrod Siddharth Dalmia Jason Riesa Clara E. Rivera Ankur Bapna VLM 70 281 0 25 May 2022
XTREME-S: Evaluating Cross-lingual Speech Representations Alexis Conneau Ankur Bapna Yu Zhang Min Ma Patrick von Platen ... Orhan Firat Michael Auli Sebastian Ruder Jason Riesa Melvin Johnson VLM AILaw ELM 43 21 0 21 Mar 2022
Learning Efficient Representations for Keyword Spotting with Triplet Loss R. Vygon N. Mikhaylovskiy DML SSL 58 63 0 12 Jan 2021
Exploring wav2vec 2.0 on speaker verification and language identification Zhiyun Fan Meng Li Shiyu Zhou Bo Xu 101 169 0 11 Dec 2020
Multi-task self-supervised learning for Robust Speech Recognition Mirco Ravanelli Jianyuan Zhong Santiago Pascual P. Swietojanski João Monteiro J. Trmal Yoshua Bengio SSL 171 288 0 25 Jan 2020
End-to-End Neural Speaker Diarization with Permutation-Free Objectives Yusuke Fujita Naoyuki Kanda Shota Horiguchi Kenji Nagamatsu Shinji Watanabe 145 242 0 12 Sep 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018