v1v2 (latest)

Multi-resolution HuBERT: Multi-resolution Speech Self-Supervised Learning with Masked Unit Prediction

International Conference on Learning Representations (ICLR), 2023

4 October 2023

Jiatong Shi

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Multi-resolution HuBERT: Multi-resolution Speech Self-Supervised Learning with Masked Unit Prediction"

26 / 26 papers shown

DualSpeechLM: Towards Unified Speech Understanding and Generation via Dual Speech Token Modeling with Large Language Models

160

12 Aug 2025

An Exploration of Mamba for Speech Self-Supervised Models

152

14 Jun 2025

Uni-VERSA: Versatile Speech Assessment with a Unified Network

Jiatong Shi

Hye-jin Shim

Shinji Watanabe

211

27 May 2025

Optimizing Speech Multi-View Feature Fusion through Conditional ComputationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

154

14 Jan 2025

How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario

296

27 Nov 2024

Fusion of Discrete Representations and Self-Augmented Representations for Multilingual Automatic Speech RecognitionSpoken Language Technology Workshop (SLT), 2024

221

27 Nov 2024

DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models

309

31 Oct 2024

An Empirical Analysis of Speech Self-Supervised Learning at Multiple Resolutions

208

31 Oct 2024

JOOCI: a Framework for Learning Comprehensive Speech Representations

Hemant Yadav

R. Shah

Sunayana Sitaram

316

14 Oct 2024

Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMsInternational Symposium on Chinese Spoken Language Processing (ISCSLP), 2024

185

24 Sep 2024

Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models

Li-Wei Chen

Takuya Higuchi

He Bai

Ahmed Hussen Abdelaziz

Alexander Rudnicky

Shinji Watanabe

Tatiana Likhomanenko

B. Theobald

Zakaria Aldeneh

297

16 Sep 2024

Muskits-ESPnet: A Comprehensive Toolkit for Singing Voice Synthesis in New ParadigmACM Multimedia (MM), 2024

Yuning Wu

Jiatong Shi

Shinji Watanabe

202

11 Sep 2024

SSDM: Scalable Speech Dysfluency ModelingNeural Information Processing Systems (NeurIPS), 2024

Xuanru Zhou

Gopala Anumanchipalli

AuLLM

286

29 Aug 2024

Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation

304

20 Aug 2024

Towards Robust Speech Representation Learning for Thousands of Languages

William Chen

Wangyou Zhang

Yifan Peng

Xinjian Li

Jinchuan Tian

Jiatong Shi

Xuankai Chang

Soumi Maiti

Karen Livescu

Shinji Watanabe

ELM

329

30 Jun 2024

SingMOS: An extensive Open-Source Singing Voice Dataset for MOS Prediction

Yuxun Tang

Jiatong Shi

Yuning Wu

Qin Jin

221

16 Jun 2024

MMM: Multi-Layer Multi-Residual Multi-Stream Discrete Speech Representation from Self-supervised Learning ModelInterspeech (Interspeech), 2024

Jiatong Shi

Xutai Ma

Hirofumi Inaguma

Anna Y. Sun

Shinji Watanabe

192

14 Jun 2024

SingOMD: Singing Oriented Multi-resolution Discrete Representation Construction from Speech Models

Yuxun Tang

Yuning Wu

Jiatong Shi

Qin Jin

233

13 Jun 2024

VISinger2+: End-to-End Singing Voice Synthesis Augmented by Self-Supervised Learning Representation

Yifeng Yu

Jiatong Shi

Yuning Wu

Shinji Watanabe

213

13 Jun 2024

TokSing: Singing Voice Synthesis based on Discrete Tokens

Jiatong Shi

256

12 Jun 2024

MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech RepresentationsInterspeech (Interspeech), 2024

301

09 Jun 2024

CtrSVDD: A Benchmark Dataset and Baseline Analysis for Controlled Singing Voice Deepfake Detection

...

Zhiyao Duan

210

04 Jun 2024

Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and BeyondAutomatic Speech Recognition & Understanding (ASRU), 2023

Jiatong Shi

...

Yuxun Tang

Shang-Wen Li

Abdelrahman Mohamed

Hung-yi Lee

Shinji Watanabe

LRM ELM

375

09 Oct 2023

EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Low Resource and Multilingual ScenariosInterspeech (Interspeech), 2023

Tejes Srivastava

Jiatong Shi

William Chen

Shinji Watanabe

231

05 Oct 2023

ML-SUPERB: Multilingual Speech Universal PERformance BenchmarkInterspeech (Interspeech), 2023

Jiatong Shi

...

321

18 May 2023

Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer EncodersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019

456

391

25 Oct 2019