Title
Improving Speech Enhancement with Multi-Metric Supervision from Learned Quality Assessment Wei Wang Wangyou Zhang Chenda Li Jiatong Shi Shinji Watanabe Yanmin Qian 7 0 0 13 Jun 2025
Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation Or Tal Felix Kreuk Yossi Adi AI4TS 44 0 0 10 Jun 2025
Audio-Sync Video Generation with Multi-Stream Temporal Control Shuchen Weng Haojie Zheng Zheng Chang Si Li Boxin Shi Xinlong Wang DiffM VGen 18 0 0 09 Jun 2025
LeVo: High-Quality Song Generation with Multi-Preference Alignment Shun Lei Yaoxun Xu Zhiwei Lin Huaicheng Zhang Wei Tan ... Chenyu Yang Haina Zhu Shuai Wang Zhiyong Wu Dong Yu 23 0 0 09 Jun 2025
ARECHO: Autoregressive Evaluation via Chain-Based Hypothesis Optimization for Speech Multi-Metric Estimation Jiatong Shi Yifan Cheng Bo-Hao Su Hye-jin Shim Jinchuan Tian Samuele Cornell Yiwen Zhao Siddhant Arora Shinji Watanabe 48 0 0 30 May 2025
AudioGenie: A Training-Free Multi-Agent Framework for Diverse Multimodality-to-Multiaudio Generation Yan Rong Jinting Wang Shan Yang Guangzhi Lei Li Liu DiffM VGen 67 0 0 28 May 2025
ACE-Step: A Step Towards Music Generation Foundation Model Junmin Gong Sean Zhao Sen Wang S. Xu Joe Guo 23 2 0 28 May 2025
Analysis and Evaluation of Synthetic Data Generation in Speech Dysfluency Detection Jinming Zhang Xuanru Zhou Jiachen Lian Shuhe Li William Li ... Zachary Miller Jet M J Vonk Brittany Morin M. G. Tempini Gopala Anumanchipalli 61 1 0 28 May 2025
What You Read Isn't What You Hear: Linguistic Sensitivity in Deepfake Speech Detection Binh Nguyen Shuji Shi Ryan Ofman Thai Le AAML 177 0 0 23 May 2025
SMART: Tuning a symbolic music generation system with an audio domain aesthetic reward Nicolas Jonason Luca Casini Bob L. T. Sturm 85 1 0 23 Apr 2025
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation Max W. Y. Lam Yijin Xing Weiya You Jingcheng Wu Zongyu Yin ... T. Zhao Chien-Hung Liu Xuchen Song Yang Li Yahui Zhou LRM 99 4 0 25 Mar 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Yu Guo 114 6 0 13 Mar 2025
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation Ziqiang Liu Shuangrui Ding Zhixiong Zhang Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Dahua Lin Jiaqi Wang 125 3 0 18 Feb 2025
Quality-aware Masked Diffusion Transformer for Enhanced Music Generation Chang Li Ruoyu Wang Lijuan Liu Jun Du Yixuan Sun Zilu Guo Zhenrong Zhang Yuan Jiang J. Gao Feng Ma 113 5 0 24 May 2024