Title
DOSE : Drum One-Shot Extraction from Music Mixture Suntae Hwang Seonghyeon Kang Kyungsu Kim Semin Ahn K. Lee 36 0 0 25 Apr 2025
LoopGen: Training-Free Loopable Music Generation Davide Marincione Giorgio Strano Donato Crisostomi Roberto Ribuoli Emanuele Rodolà MGen 48 0 0 06 Apr 2025
A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives Shuyu Li Shulei Ji Zihao W. Wang Songruoyao Wu Jiaxing Yu K. Zhang MGen VGen 65 1 0 01 Apr 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Y. Guo 67 3 0 13 Mar 2025
Bayesian Computation in Deep Learning Wenlong Chen Bolian Li Ruqi Zhang Yingzhen Li BDL 70 0 0 25 Feb 2025
Exploring the Needs of Practising Musicians in Co-Creative AI Through Co-Design Stephen James Krol Maria Teresa Llano Rodriguez Miguel Loor Paredes 62 0 0 13 Feb 2025
Hookpad Aria: A Copilot for Songwriters Chris Donahue Shih-Lun Wu Yewon Kim Dave Carlton Ryan Miyakawa John Thickstun 53 1 0 12 Feb 2025
Survey on AI-Generated Media Detection: From Non-MLLM to MLLM Yueying Zou Peipei Li Zekun Li Huaibo Huang Xing Cui Xuannan Liu Chenghanyu Zhang Ran He DeLMO 118 2 0 07 Feb 2025
Editing Music with Melody and Text: Using ControlNet for Diffusion Transformer Siyuan Hou Shansong Liu Ruibin Yuan Wei Xue Ying Shan Mangsuo Zhao Chao Zhang 87 3 0 17 Jan 2025
COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations Ruben Ciranni Emilian Postolache Giorgio Mariani Michele Mancusi Giorgio Fabbro Emanuele Rodolà Luca Cosmo 59 7 0 10 Jan 2025
Deep Neural Networks and Brain Alignment: Brain Encoding and Decoding (Survey) S. Oota Zijiao Chen Manish Gupta R. Bapi G. Jobard F. Alexandre X. Hinaut 3DV AI4CE 44 11 0 31 Dec 2024
Simultaneous Music Separation and Generation Using Multi-Track Latent Diffusion Models Tornike Karchkhadze M. Izadi Shlomo Dubnov DiffM 39 2 0 31 Dec 2024
Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks Felipe Marra Lucas N. Ferreira 26 0 0 06 Nov 2024
Fourier Head: Helping Large Language Models Learn Complex Probability Distributions Nate Gillman Daksh Aggarwal Michael Freeman Saurabh Singh Chen Sun AI4TS 41 3 0 29 Oct 2024
Art2Mus: Bridging Visual Arts and Music through Cross-Modal Generation Ivan Rinaldi Nicola Fanelli Giovanna Castellano G. Vessio 29 2 0 07 Oct 2024
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition Zixuan Wang Chi-Keung Tang Chi-Keung Tang DiffM VGen LLMAG 41 4 0 04 Oct 2024
PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing Phillip Long Zachary Novack Taylor Berg-Kirkpatrick Julian McAuley 45 0 0 17 Sep 2024
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings Tanisha Hisariya Huan Zhang Jinhua Liang 29 3 0 12 Sep 2024
MetaBGM: Dynamic Soundtrack Transformation For Continuous Multi-Scene Experiences With Ambient Awareness And Personalization Haoxuan Liu Zihao Wang HaoRong Hong Youwei Feng Jiaxin Yu Han Diao Yunfei Xu K. Zhang 24 0 0 05 Sep 2024
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling Shengpeng Ji Ziyue Jiang Xize Cheng Yifu Chen Minghui Fang ... Rongjie Huang Yidi Jiang Qian Chen Zhou Zhao Zhou Zhao VLM 52 33 0 29 Aug 2024
ICSD: An Open-source Dataset for Infant Cry and Snoring Detection Qingyu Liu Longfei Song Dongxing Xu Yanhua Long 37 0 0 20 Aug 2024
Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models S. Nercessian Johannes Imort Ninon Devis Frederik Blang 29 1 0 22 Jul 2024
PAGURI: a user experience study of creative interaction with text-to-music models Francesca Ronchini Luca Comanducci Gabriele Perego Fabio Antonacci 32 3 0 05 Jul 2024
Subtractive Training for Music Stem Insertion using Latent Diffusion Models Ivan Villa-Renteria Mason L. Wang Zachary Shah Zhe Li Soohyun Kim Neelesh Ramachandran Mert Pilanci 34 0 0 27 Jun 2024
MusicScore: A Dataset for Music Score Modeling and Generation Yuheng Lin Zheqi Dai Qiuqiang Kong VLM 32 2 0 17 Jun 2024
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling Zeyue Tian Zhaoyang Liu Ruibin Yuan Jiahao Pan Xiaoqiang Huang Xu Tan Xu Tan Qifeng Chen Y. Guo VGen 100 16 0 06 Jun 2024
SysCaps: Language Interfaces for Simulation Surrogates of Complex Systems Patrick Emami Zhaonan Li Saumya Sinha Truc Nguyen 48 1 0 30 May 2024
Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models Emilian Postolache Giorgio Mariani Luca Cosmo Emmanouil Benetos Emanuele Rodolà DiffM 35 9 0 18 Mar 2024
Detecting Multimedia Generated by Large AI Models: A Survey Li Lin Neeraj Gupta Yue Zhang Hainan Ren Chun-Hao Liu Feng Ding Xin Eric Wang X. Li Luisa Verdoliva Shu Hu 75 56 0 22 Jan 2024
SonicVisionLM: Playing Sound with Vision Language Models Zhifeng Xie Shengye Yu Qile He Mengtian Li VLM VGen 28 2 0 09 Jan 2024
HeadArtist: Text-conditioned 3D Head Generation with Self Score Distillation Hongyu Liu Xuan Wang Ziyu Wan Yujun Shen Yibing Song Jing Liao Qifeng Chen DiffM 36 17 0 12 Dec 2023
InstrumentGen: Generating Sample-Based Musical Instruments From Text S. Nercessian Johannes Imort 27 2 0 07 Nov 2023
Content-based Controls For Music Large Language Modeling Liwei Lin Gus Xia Junyan Jiang Yixiao Zhang 18 14 0 26 Oct 2023
CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models Sreyan Ghosh Ashish Seth Sonal Kumar Utkarsh Tyagi Chandra Kiran Reddy Evuru S. Ramaneswaran S. Sakshi Oriol Nieto R. Duraiswami Dinesh Manocha AuLLM VLM CoGe 35 21 0 12 Oct 2023
Discrete Audio Representation as an Alternative to Mel-Spectrograms for Speaker and Speech Recognition Krishna C. Puvvada Nithin Rao Koluguri Kunal Dhawan Jagadeesh Balam Boris Ginsburg 24 12 0 19 Sep 2023
Self-Supervised Disentanglement of Harmonic and Rhythmic Features in Music Audio Signals Yiming Wu CoGe DRL 18 0 0 06 Sep 2023
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer Xiaofei Wang Manthan Thakker Zhuo Chen Naoyuki Kanda Sefik Emre Eskimez Sanyuan Chen M. Tang Shujie Liu Jinyu Li Takuya Yoshioka 18 79 0 14 Aug 2023
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining Haohe Liu Yiitan Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley DiffM 22 220 0 10 Aug 2023
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models Peike Li Bo-Yu Chen Yao Yao Yikai Wang Allen Wang Alex Jinpeng Wang MGen VLM DiffM 60 37 0 09 Aug 2023
Mini-Giants: "Small" Language Models and Open Source Win-Win Zhengping Zhou Lezhi Li Xinxi Chen Andy Li SyDa ALM MoE 24 6 0 17 Jul 2023
Pengi: An Audio Language Model for Audio Tasks Soham Deshmukh Benjamin Elizalde Rita Singh Huaming Wang MLLM AuLLM 30 156 0 19 May 2023
A Blockchain-based Platform for Reliable Inference and Training of Large-Scale Models Sanghyeon Park Junmo Lee Soo-Mook Moon 38 1 0 06 May 2023
Scientists' Perspectives on the Potential for Generative AI in their Fields Meredith Ringel Morris AI4CE 25 36 0 04 Apr 2023
Level Generation Through Large Language Models Graham Todd Sam Earle Muhammad Umair Nasir M. Green Julian Togelius 16 73 0 11 Feb 2023
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 243 564 0 29 May 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,764 0 24 Feb 2021
LEAF: A Learnable Frontend for Audio Classification Neil Zeghidour O. Teboul Félix de Chaumont Quitry Marco Tagliasacchi VLM AAML 77 141 0 21 Jan 2021
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 267 1,808 0 14 Dec 2020
DDSP: Differentiable Digital Signal Processing Jesse Engel Lamtharn Hantrakul Chenjie Gu Adam Roberts DiffM 83 372 0 14 Jan 2020