Simple and Controllable Music Generation

8 June 2023

Yossi Adi

Papers citing "Simple and Controllable Music Generation"

50 / 256 papers shown

Title
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models Yixiao Zhang Yukara Ikemiya Gus Xia Naoki Murata Marco A. Martínez-Ramírez Wei-Hsiang Liao Yuki Mitsufuji Simon Dixon 47 20 0 09 Feb 2024
Fast Timing-Conditioned Latent Audio Diffusion Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons DiffM 82 101 0 07 Feb 2024
Enhancing the Stability of LLM-based Speech Generation Systems through Self-Supervised Representations Álvaro Martín-Cortinas Daniel Sáez-Trigueros Iván Vallés-Pérez Biel Tura Vecino Piotr Bilinski Mateusz Lajszczak Grzegorz Beringer Roberto Barra-Chicote Jaime Lorenzo-Trueba 16 5 0 05 Feb 2024
Natural language guidance of high-fidelity text-to-speech with synthetic annotations Daniel Lyth Simon King 16 35 0 02 Feb 2024
Spiking Music: Audio Compression with Event Based Auto-encoders Martim Lisboa Guillaume Bellec 37 2 0 02 Feb 2024
Bass Accompaniment Generation via Latent Diffusion Marco Pasini M. Grachten Stefan Lattner 51 11 0 02 Feb 2024
PAM: Prompting Audio-Language Models for Audio Quality Assessment Soham Deshmukh Dareen Alharthi Benjamin Elizalde Hannes Gamper Mahmoud Al Ismail Rita Singh Bhiksha Raj Huaming Wang 29 11 0 01 Feb 2024
Proactive Detection of Voice Cloning with Localized Watermarking Robin San Roman Pierre Fernandez Alexandre Défossez Teddy Furon Tuan Tran Hady ElSahar 49 41 0 30 Jan 2024
Residual Quantization with Implicit Neural Codebooks Iris A. M. Huijben Matthijs Douze Matthew Muckley Ruud J. G. van Sloun Jakob Verbeek MQ 29 11 0 26 Jan 2024
DITTO: Diffusion Inference-Time T-Optimization for Music Generation Zachary Novack Julian McAuley Taylor Berg-Kirkpatrick Nicholas J. Bryan DiffM 28 33 0 22 Jan 2024
Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long Multi-track Symbolic Music Generation Zhiwei Lin Jun Chen Boshi Tang Binzhu Sha Jing Yang Yaolong Ju Fan Fan Max Welling Zhiyong Wu Helen M. Meng 38 2 0 15 Jan 2024
Masked Audio Generation using a Single Non-Autoregressive Transformer Alon Ziv Itai Gat Gaël Le Lan Tal Remez Felix Kreuk Alexandre Défossez Jade Copet Gabriel Synnaeve Yossi Adi 54 36 0 09 Jan 2024
SonicVisionLM: Playing Sound with Vision Language Models Zhifeng Xie Shengye Yu Qile He Mengtian Li VLM VGen 28 2 0 09 Jan 2024
Efficient Parallel Audio Generation using Group Masked Language Modeling Myeonghun Jeong Minchan Kim Joun Yeop Lee Nam Soo Kim 22 5 0 02 Jan 2024
Audiobox: Unified Audio Generation with Natural Language Prompts Apoorv Vyas Bowen Shi Matt Le Andros Tjandra Yi-Chiao Wu ... Chris Summers Carleigh Wood Joshua Lane Mary Williamson Wei-Ning Hsu 44 75 0 25 Dec 2023
StemGen: A music generation model that listens Julian Parker Janne Spijkervet Katerina Kosta Furkan Yesiler Boris Kuznetsov Ju-Chiang Wang Matt Avent Jitong Chen Duc Le MGen 25 27 0 14 Dec 2023
JAMMIN-GPT: Text-based Improvisation using LLMs in Ableton Live Sven Hollowell Tashi Namgyal Paul Marshall 21 0 0 06 Dec 2023
Can MusicGen Create Training Data for MIR Tasks? N. Kroher Helena Cuesta A. Pikrakis MGen VLM 30 2 0 15 Nov 2023
Music ControlNet: Multiple Time-varying Controls for Music Generation Shih-Lun Wu Chris Donahue Shinji Watanabe Nicholas J. Bryan DiffM MGen 29 50 0 13 Nov 2023
TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models Zhen Yang Yingxue Zhang Fandong Meng Jie Zhou VLM MLLM 42 3 0 08 Nov 2023
InstrumentGen: Generating Sample-Based Musical Instruments From Text S. Nercessian Johannes Imort 27 2 0 07 Nov 2023
Musical Form Generation Lilac Atassi 13 0 0 30 Oct 2023
JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation Yao Yao Peike Li Boyu Chen Alex Wang DiffM 32 9 0 29 Oct 2023
Enabling Acoustic Audience Feedback in Large Virtual Events Tamay Aykut M. Hofbauer Christopher B. Kuhn Eckehard Steinbach Bernd Girod 50 0 0 27 Oct 2023
Generative Fractional Diffusion Models Gabriel Nobis Maximilian Springenberg Marco Aversa Michael Detzel Rembert Daems ... Tolga Birdal Manfred Opper Christoph Knochenhauer Luis Oala Wojciech Samek DiffM 24 5 0 26 Oct 2023
Content-based Controls For Music Large Language Modeling Liwei Lin Gus Xia Junyan Jiang Yixiao Zhang 18 14 0 26 Oct 2023
HumanTOMATO: Text-aligned Whole-body Motion Generation Shunlin Lu Ling-Hao Chen Ailing Zeng Jing Lin Ruimao Zhang Lei Zhang H. Shum VGen 34 60 0 19 Oct 2023
Audio Editing with Non-Rigid Text Prompts Francesco Paissan Luca Della Libera Zhepei Wang Mirco Ravanelli Paris Smaragdis Cem Subakan DiffM 46 5 0 19 Oct 2023
Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing Yixiao Zhang Akira Maezawa Gus Xia Kazuhiko Yamamoto Simon Dixon 49 17 0 19 Oct 2023
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT Zhihao Du Jiaming Wang Qian Chen Yunfei Chu Zhifu Gao ... Wen Wang Siqi Zheng Chang Zhou Zhijie Yan Shiliang Zhang LLMAG VLM AuLLM LM&MA 34 80 0 07 Oct 2023
UniAudio: An Audio Foundation Model Toward Universal Audio Generation Dongchao Yang Jinchuan Tian Xuejiao Tan Rongjie Huang Songxiang Liu ... Jiang Bian Xixin Wu Zhou Zhao Shinji Watanabe Helen M. Meng CVBM AuLLM 28 114 0 01 Oct 2023
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation Guy Yariv Itai Gat Sagie Benaim Lior Wolf Idan Schwartz Yossi Adi DiffM VGen 34 38 0 28 Sep 2023
Towards General-Purpose Text-Instruction-Guided Voice Conversion Chun-Yi Kuan Chen An Li Tsung-Yuan Hsu T. Lin Ho-Lam Chung Kai-Wei Chang Shuo-yiin Chang Hung-yi Lee 18 5 0 25 Sep 2023
ID.8: Co-Creating Visual Stories with Generative AI Victor Nikhil Antony Chien-Ming Huang 38 24 0 25 Sep 2023
Investigating Personalization Methods in Text to Music Generation Manos Plitsis Theodoros Kouzelis Georgios Paraskevopoulos V. Katsouros Yannis Panagakis DiffM 29 10 0 20 Sep 2023
FoleyGen: Visually-Guided Audio Generation Xinhao Mei Varun K. Nagaraja Gaël Le Lan Zhaoheng Ni Ernie Chang Yangyang Shi Vikas Chandra VGen 21 20 0 19 Sep 2023
Stack-and-Delay: a new codebook pattern for music generation Gaël Le Lan Varun K. Nagaraja Ernie Chang David Kant Zhaoheng Ni Yangyang Shi Forrest N. Iandola Vikas Chandra BDL 48 7 0 15 Sep 2023
Enhance audio generation controllability through representation similarity regularization Yangyang Shi Gaël Le Lan Varun K. Nagaraja Zhaoheng Ni Xinhao Mei Ernie Chang Forrest N. Iandola Yang Liu Vikas Chandra 36 1 0 15 Sep 2023
SpatialCodec: Neural Spatial Speech Coding Zhongweiyang Xu Yong-mei Xu Vinay Kothapally Heming Wang Muqiao Yang Dong Yu 29 1 0 14 Sep 2023
AudioSR: Versatile Audio Super-resolution at Scale Haohe Liu Ke Chen Qiao Tian Wenwu Wang Mark D. Plumbley DiffM 13 21 0 13 Sep 2023
InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models Bing Han Junyu Dai Weituo Hao Xinyan He Dong Guo Jitong Chen Yuxuan Wang Y. Qian Xuchen Song DiffM 27 15 0 28 Aug 2023
Sparks of Large Audio Models: A Survey and Outlook S. Latif Moazzam Shoukat Fahad Shamshad Muhammad Usama Yi Ren ... Wenwu Wang Xulong Zhang Roberto Togneri Erik Cambria Björn W. Schuller LM&MA AuLLM 31 38 0 24 Aug 2023
WavMark: Watermarking for Audio Generation Guang Chen Yu-Huan Wu Shujie Liu Tao Liu Xiaoyong Du Furu Wei 17 32 0 24 Aug 2023
A Survey of AI Music Generation Tools and Models Yueyue Zhu Jared Baca Banafsheh Rekabdar Reza Rawassizadeh MGen 35 14 0 24 Aug 2023
Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning Shansong Liu Atin Sakkeer Hussain Chenshuo Sun Yin Shan MLLM 26 46 0 22 Aug 2023
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining Haohe Liu Yiitan Yuan Xubo Liu Xinhao Mei Qiuqiang Kong Qiao Tian Yuping Wang Wenwu Wang Yuxuan Wang Mark D. Plumbley DiffM 25 223 0 10 Aug 2023
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models Peike Li Bo-Yu Chen Yao Yao Yikai Wang Allen Wang Alex Jinpeng Wang MGen VLM DiffM 67 37 0 09 Aug 2023
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies K. Chen Yusong Wu Haohe Liu Marianna Nezhurina Taylor Berg-Kirkpatrick Shlomo Dubnov DiffM 41 74 0 03 Aug 2023
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion Robin San Roman Yossi Adi Antoine Deleforge Romain Serizel Gabriel Synnaeve Alexandre Défossez DiffM 21 21 0 02 Aug 2023
WavJourney: Compositional Audio Creation with Large Language Models Xubo Liu Zhongkai Zhu Haohe Liu Yiitan Yuan Meng Cui ... Jinhua Liang Yin Cao Qiuqiang Kong Mark D. Plumbley Wenwu Wang AuLLM 26 25 0 26 Jul 2023