Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English

v1v2v3 (latest)

Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English

20 May 2025

ArXiv (abs)PDF HTML

Papers citing "Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English"

4 / 4 papers shown

Title
Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction Ailin Huang Boyong Wu Bruce Wang Chao Yan Chen Hu ... Tianyu Wang Wenjin Deng Wuxun Xie Weipeng Ming Wenqing He AuLLM 117 17 0 17 Feb 2025
AudioMiXR: Spatial Audio Object Manipulation with 6DoF for Sound Design in Augmented Reality Brandon Woodard Margarita Geleta Joseph J. LaViola Jr. Andrea Fanelli Rhonda Wilson 170 4 0 05 Feb 2025
FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles Tian-Hao Zhang Jiawei Zhang Jun Wang Xinyuan Qian Xu-cheng Yin CVBM 130 1 0 02 Jan 2025
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling Shengpeng Ji Ziyue Jiang Xize Cheng Yifu Chen Minghui Fang ... Rongjie Huang Yidi Jiang Qian Chen Zhou Zhao Zhou Zhao VLM 147 45 0 29 Aug 2024