DualCodec: A Low-Frame-Rate, Semantically-Enhanced Neural Audio Codec for Speech Generation

v1v2 (latest)

DualCodec: A Low-Frame-Rate, Semantically-Enhanced Neural Audio Codec for Speech Generation

19 May 2025

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (49★)

Papers citing "DualCodec: A Low-Frame-Rate, Semantically-Enhanced Neural Audio Codec for Speech Generation"

10 / 10 papers shown

Title
AlignSurvey: A Comprehensive Benchmark for Human Preferences Alignment in Social Surveys Chenxi Lin Weikang Yuan Zhuoren Jiang Biao Huang Ruitao Zhang Jianan Ge Yueqian Xu Jianxing Yu ALM 577 0 0 11 Nov 2025
U-Codec: Ultra Low Frame-rate Neural Speech Codec for Fast High-fidelity Speech Generation Xusheng Yang Long Zhou Wenfu Wang Kai Hu Shulin Feng Chenxing Li Meng Yu Dong Yu Y. Zou 116 1 0 19 Oct 2025
TASLA: Text-Aligned Speech Tokens with Multiple Layer-Aggregation Ming-Hao Hsu Liang-Hsuan Tseng Hung-yi Lee Zhizheng Wu 112 0 0 16 Oct 2025
FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates Jiaqi Li Y. Qian Yuxuan Hu Leying Zhang Xiaofei Wang Heng Lu Manthan Thakker Jinyu Li Sheng Zhao Zhizheng Wu 210 1 0 01 Oct 2025
AUV: Teaching Audio Universal Vector Quantization with Single Nested Codebook Yihao Chen Kai Hu Long Zhou Shulin Feng Xusheng Yang Hangting Chen Xie Chen 132 2 0 26 Sep 2025
DeCodec: Rethinking Audio Codecs as Universal Disentangled Representation Learners Xiaoxue Luo Jinwei Huang Runyan Yang Yingying Gao Junlan Feng Chao Deng Shilei Zhang 134 2 0 11 Sep 2025
TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling Yuancheng Wang Dekun Chen Xueyao Zhang Junan Zhang Jiaqi Li Zhizheng Wu 224 4 0 22 Aug 2025
Advancing Zero-shot Text-to-Speech Intelligibility across Diverse Domains via Preference AlignmentAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Xueyao Zhang Yijiao Wang Chaoren Wang Hui Yuan Zhuo Chen Zhizheng Wu 665 11 0 07 May 2025
FireRedTTS: A Foundation Text-To-Speech Framework for Industry-Level Generative Speech Applications Hao-Han Guo Kun Liu Fei-Yu Shen Yi-Chen Wu Xu Tang Kun Xie Kai-Tuo Xu Kun Xie Kai-Tuo Xu 308 77 0 05 Sep 2024
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language ModelingInternational Conference on Learning Representations (ICLR), 2024 Shengpeng Ji Ziyue Jiang Xize Cheng Yifu Chen Minghui Fang ... Rongjie Huang Yidi Jiang Qian Chen Zhou Zhao Zhou Zhao VLM 368 118 0 29 Aug 2024