Title
Ethics Statements in AI Music Papers: The Effective and the Ineffective Julia Barnett P. O'Reilly Jason Brent Smith Annie Chu Bryan Pardo 12 0 0 29 Sep 2025
AudioMoG: Guiding Audio Generation with Mixture-of-Guidance Junyou Wang Zehua Chen Binjie Yuan Kaiwen Zheng Chang Li Yuxuan Jiang Jun Zhu 4 0 0 28 Sep 2025
Improving Test-Time Performance of RVQ-based Neural Codecs Hyeongju Kim Junhyeok Lee Jacob Morton Juheon Lee Jinhyeok Yang 4 0 0 23 Sep 2025
TinyMusician: On-Device Music Generation with Knowledge Distillation and Mixed Precision Quantization Hainan Wang M. Hosseinzadeh Reza Rawassizadeh MQ MGen 80 0 0 31 Aug 2025
DiffRhythm+: Controllable and Flexible Full-Length Song Generation with Preference Optimization Huakang Chen Yuepeng Jiang Guobin Ma Chunbo Hao Shuai Wang Jixun Yao Ziqian Ning Meng Meng Jian Luan Lei Xie DiffM 105 2 0 17 Jul 2025
Video-Guided Text-to-Music Generation Using Public Domain Movie Collections Haven Kim Cheng-i Wang Weihan Xu Julian McAuley Hao-Wen Dong VGen 163 2 0 01 Jul 2025
Versatile Symbolic Music-for-Music Modeling via Function Alignment Junyan Jiang Daniel Y. Chin Liwei Lin Xuanjie Liu Gus Xia 107 0 0 18 Jun 2025
Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation Or Tal Felix Kreuk Yossi Adi AI4TS 173 0 0 10 Jun 2025
LeVo: High-Quality Song Generation with Multi-Preference Alignment Shun Lei Yaoxun Xu Zhiwei Lin Huaicheng Zhang Wei Tan ... Chenyu Yang Haina Zhu Shuai Wang Zhiyong Wu Dong Yu 127 6 0 09 Jun 2025
A Survey on Cross-Modal Interaction Between Music and Multimodal Data Sifei Li Mining Tan Feier Shen Minyan Luo Zijiao Yin Fan Tang Weiming Dong Changsheng Xu 165 1 0 17 Apr 2025
Generation of Musical Timbres using a Text-Guided Diffusion Model Weixuan Yuan Qadeer Khan Vladimir Golkov DiffM 136 0 0 12 Apr 2025
A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives Shuyu Li Shulei Ji Zihao Wang Songruoyao Wu Jiaxing Yu Jianchao Tan MGen VGen 342 2 0 01 Apr 2025
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation Max W. Y. Lam Yijin Xing Weiya You Jingcheng Wu Zongyu Yin ... T. Zhao Chien-Hung Liu Xuchen Song Yang Li Yahui Zhou LRM 160 7 0 25 Mar 2025
Audio-Language Models for Audio-Centric Tasks: A survey Yi Su Jisheng Bai Qisheng Xu Kele Xu Yong Dou AuLLM 230 9 0 28 Jan 2025
Music Foundation Model as Generic Booster for Music Downstream Tasks Weihsiang Liao Yuhta Takida Yukara Ikemiya Zhi-Wei Zhong Chieh-Hsin Lai ... Stefan Uhlich Taketo Akama Woosung Choi Yuichiro Koyama Yuki Mitsufuji 360 5 0 02 Nov 2024
MusicFlow: Cascaded Flow Matching for Text Guided Music Generation K R Prajwal Bowen Shi Matthew Lee Apoorv Vyas Andros Tjandra ... Baishan Guo Huiyu Wang Triantafyllos Afouras David Kant Wei-Ning Hsu 116 6 0 27 Oct 2024
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings Tanisha Hisariya Huan Zhang Jinhua Liang 121 6 0 12 Sep 2024
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos Yan-Bo Lin Yu Tian L. Yang Gedas Bertasius Heng Wang VGen 121 10 0 11 Sep 2024
An End-to-End Approach for Chord-Conditioned Song Generation Shuochen Gao Shun Lei Fan Zhuo Hangyu Liu Feng Liu Boshi Tang Qiaochu Huang Shiyin Kang Zhiyong Wu 84 4 0 10 Sep 2024
SongCreator: Lyrics-based Universal Song Generation Shun Lei Yixuan Zhou Boshi Tang Max W. Y. Lam Feng Liu Hangyu Liu Jingcheng Wu Shiyin Kang Zhiyong Wu Helen Meng 147 12 0 09 Sep 2024
MetaBGM: Dynamic Soundtrack Transformation For Continuous Multi-Scene Experiences With Ambient Awareness And Personalization Haoxuan Liu Zihao Wang HaoRong Hong Youwei Feng Jiaxin Yu Han Diao Yunfei Xu Jianchao Tan 86 0 0 05 Sep 2024
FLUX that Plays Music Zhengcong Fei Mingyuan Fan Changqian Yu Junshi Huang 180 13 0 01 Sep 2024
Efficient and Scalable Point Cloud Generation with Sparse Point-Voxel Diffusion Models Ioannis Romanelis Vlassios Fotis Athanasios P. Kalogeras Christos Alexakos Konstantinos Moustakas Adrian Munteanu 84 0 0 12 Aug 2024
Audio Conditioning for Music Generation via Discrete Bottleneck Features Simon Rouard Yossi Adi Jade Copet Axel Roebel Alexandre Défossez MGen 161 9 0 17 Jul 2024
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss Yangyang Shu Haiming Xu Ziqin Zhou Anton van den Hengel Lingqiao Liu 168 5 0 05 Jul 2024
Accompanied Singing Voice Synthesis with Fully Text-controlled Melody Ruiqi Li Zhiqing Hong Yongqi Wang Lichao Zhang Rongjie Huang Siqi Zheng Zhou Zhao 126 10 0 02 Jul 2024
MusicScore: A Dataset for Music Score Modeling and Generation Yuheng Lin Zheqi Dai Qiuqiang Kong VLM 104 3 0 17 Jun 2024
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models Sanjoy Chowdhury Sayan Nag K. J. Joseph Balaji Vasan Srinivasan Dinesh Manocha DiffM 121 13 0 07 Jun 2024
SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound Rishit Dagli Shivesh Prakash Robert Wu H. Khosravani 225 13 0 06 Jun 2024
A Survey of Deep Learning Audio Generation Methods Matej Bozic Marko Horvat VLM MedIm 145 5 0 31 May 2024
DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation Cheng-i Wang Julian McAuley Taylor Berg-Kirkpatrick Nicholas J. Bryan 173 20 0 30 May 2024
Quality-aware Masked Diffusion Transformer for Enhanced Music Generation Chang Li Ruoyu Wang Lijuan Liu Jun Du Yixuan Sun Zilu Guo Zhenrong Zhang Yuan Jiang J. Gao Feng Ma 199 8 0 24 May 2024
Long-form music generation with latent diffusion Zach Evans Julian Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons MGen DiffM 158 70 0 16 Apr 2024
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models Yixiao Zhang Yukara Ikemiya Gus Xia Naoki Murata Marco A. Martínez-Ramírez Wei-Hsiang Liao Yuki Mitsufuji Simon Dixon 190 35 0 09 Feb 2024
Fast Timing-Conditioned Latent Audio Diffusion Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons DiffM 258 163 0 07 Feb 2024
Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long Multi-track Symbolic Music Generation Zhiwei Lin Jun Chen Boshi Tang Binzhu Sha Jing Yang Yaolong Ju Fan Fan Max Welling Zhiyong Wu Helen M. Meng 162 2 0 15 Jan 2024
Masked Audio Generation using a Single Non-Autoregressive Transformer Alon Ziv Itai Gat Gaël Le Lan Tal Remez Felix Kreuk Alexandre Défossez Jade Copet Gabriel Synnaeve Yossi Adi 140 51 0 09 Jan 2024
SonicVisionLM: Playing Sound with Vision Language Models Zhifeng Xie Shengye Yu Qile He Mengtian Li VLM VGen 101 3 0 09 Jan 2024
JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation Yao Yao Peike Li Boyu Chen Alex Wang DiffM 114 14 0 29 Oct 2023
Stack-and-Delay: a new codebook pattern for music generation Gaël Le Lan Varun K. Nagaraja Ernie Chang David Kant Zhaoheng Ni Yangyang Shi Forrest N. Iandola Vikas Chandra BDL 126 7 0 15 Sep 2023
Enhance audio generation controllability through representation similarity regularization Yangyang Shi Gaël Le Lan Varun K. Nagaraja Zhaoheng Ni Xinhao Mei Ernie Chang Forrest N. Iandola Yang Liu Vikas Chandra 87 2 0 15 Sep 2023
InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models Bing Han Junyu Dai Weituo Hao Xinyan He Dong Guo Jitong Chen Yuxuan Wang Y. Qian Xuchen Song DiffM 135 21 0 28 Aug 2023
Sparks of Large Audio Models: A Survey and Outlook S. Latif Moazzam Shoukat Fahad Shamshad Muhammad Usama Yi Ren ... Wenwu Wang Xulong Zhang Roberto Togneri Johan Sulaeman Björn W. Schuller LM&MA AuLLM 302 46 0 24 Aug 2023
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining Haohe Liu Yiitan Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley DiffM 192 316 0 10 Aug 2023
Brain2Music: Reconstructing Music from Human Brain Activity Timo I. Denk Yu Takagi Takuya Matsuyama A. Agostinelli Tomoya Nakai Christian Frank Shinji Nishimoto 98 15 0 20 Jul 2023
HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio Codec and Latent Diffusion Models Ji-Sang Hwang Sang-Hoon Lee Seong-Whan Lee DiffM 101 15 0 12 Jun 2023