How Should We Extract Discrete Audio Tokens from Self-Supervised Models?

How Should We Extract Discrete Audio Tokens from Self-Supervised Models?

15 June 2024

Luca Della Libera

Artem Ploujnikov

Mirco Ravanelli

Papers citing "How Should We Extract Discrete Audio Tokens from Self-Supervised Models?"

10 / 10 papers shown

Title
On The Landscape of Spoken Language Models: A Comprehensive Survey Siddhant Arora Kai-Wei Chang Chung-Ming Chien Yifan Peng Haibin Wu Yossi Adi Emmanuel Dupoux Hung-yi Lee Karen Livescu Shinji Watanabe 39 1 0 11 Apr 2025
LauraTSE: Target Speaker Extraction using Auto-Regressive Decoder-Only Language Models Beilong Tang Bang Zeng Ming Li AI4TS 34 0 0 10 Apr 2025
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM Kshitij Ambilduke Ben Peters Sonal Sannigrahi Anil Keshwani Tsz Kin Lam Bruno Martins Marcely Zanon Boito André F. T. Martins 47 0 0 13 Mar 2025
Scaling Transformers for Low-Bitrate High-Quality Speech Coding Julian Parker Anton Smirnov Jordi Pons CJ Carr Zack Zukowski Zach Evans Xubo Liu 70 9 0 29 Nov 2024
Do Discrete Self-Supervised Representations of Speech Capture Tone Distinctions? Opeyemi Osakuade Simon King 18 0 0 25 Oct 2024
TSELM: Target Speaker Extraction using Discrete Tokens and Language Models Beilong Tang Bang Zeng Ming Li 25 2 0 12 Sep 2024
Salmon: A Suite for Acoustic Language Model Evaluation Gallil Maimon Amit Roth Yossi Adi ELM AuLLM 49 5 0 11 Sep 2024
Open-Source Conversational AI with SpeechBrain 1.0 Mirco Ravanelli Titouan Parcollet Adel Moumen Sylvain de Langen Cem Subakan ... Salima Mdhaffar G. Laperriere Mickael Rouvier Renato De Mori Yannick Esteve VLM 29 10 0 29 Jun 2024
DASB -- Discrete Audio and Speech Benchmark Pooneh Mousavi Luca Della Libera J. Duret Artem Ploujnikov Cem Subakan Mirco Ravanelli 22 12 0 20 Jun 2024
HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec Dongchao Yang Songxiang Liu Rongjie Huang Jinchuan Tian Chao Weng Yuexian Zou 138 118 0 04 May 2023