Simple and Controllable Music Generation

8 June 2023

Yossi Adi

Papers citing "Simple and Controllable Music Generation"

50 / 256 papers shown

Title
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators Shengpeng Ji Tianle Liang Yongqian Li Jialong Zuo Minghui Fang ... Xize Cheng Siqi Zheng Jin Xu Junyang Lin Zhou Zhao AuLLM ALM 33 0 0 14 May 2025
Fast Text-to-Audio Generation with Adversarial Post-Training Zachary Novack Zach Evans Zack Zukowski Josiah Taylor CJ Carr ... Adnan Al-Sinan Gian Marco Iodice Julian McAuley Taylor Berg-Kirkpatrick Jordi Pons 30 0 0 13 May 2025
SonicRAG : High Fidelity Sound Effects Synthesis Based on Retrival Augmented Generation Yu-Ren Guo Wen-Kai Tai 57 0 0 06 May 2025
Mamba-Diffusion Model with Learnable Wavelet for Controllable Symbolic Music Generation Jincheng Zhang Gyorgy Fazekas C. Saitis 53 0 0 06 May 2025
TriniMark: A Robust Generative Speech Watermarking Method for Trinity-Level Attribution Yue Li Wei Liu Dongdong Lin 44 0 0 29 Apr 2025
DOSE : Drum One-Shot Extraction from Music Mixture Suntae Hwang Seonghyeon Kang Kyungsu Kim Semin Ahn K. Lee 36 0 0 25 Apr 2025
SOLIDO: A Robust Watermarking Method for Speech Synthesis via Low-Rank Adaptation Yue Li Weizhi Liu Dongdong Lin 27 0 0 21 Apr 2025
OmniAudio: Generating Spatial Audio from 360-Degree Video Huadai Liu Tianyi Luo Qikai Jiang Kaicheng Luo Peiwen Sun ... Xin Li Shiliang Zhang Zhijie Yan Zhou Zhao Wei Xue VGen 58 0 0 21 Apr 2025
DRAGON: Distributional Rewards Optimize Diffusion Generative Models Yatong Bai Jonah Casebeer Somayeh Sojoudi Nicholas J. Bryan DiffM VLM 48 1 0 21 Apr 2025
A Survey on Cross-Modal Interaction Between Music and Multimodal Data Sifei Li Mining Tan Feier Shen Minyan Luo Zijiao Yin Fan Tang W. Dong Changsheng Xu 69 0 0 17 Apr 2025
ALMTokenizer: A Low-bitrate and Semantic-rich Audio Codec Tokenizer for Audio Language Modeling Dongchao Yang Songxiang Liu Haohan Guo Jiankun Zhao Yuanyuan Wang ... Xubo Liu Xueyuan Chen Xu Tan Xixin Wu Helen Meng 119 1 0 14 Apr 2025
On The Landscape of Spoken Language Models: A Comprehensive Survey Siddhant Arora Kai-Wei Chang Chung-Ming Chien Yifan Peng Haibin Wu Yossi Adi Emmanuel Dupoux Hung-yi Lee Karen Livescu Shinji Watanabe 52 2 0 11 Apr 2025
ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models Seonghwan Park Jaehyeon Jeong Yongjun Kim Jaeho Lee Namhoon Lee VLM 49 0 0 09 Apr 2025
STAGE: Stemmed Accompaniment Generation through Prefix-Based Conditioning Giorgio Strano Chiara Ballanti Donato Crisostomi Michele Mancusi Luca Cosmo Emanuele Rodolà 26 0 0 08 Apr 2025
LoopGen: Training-Free Loopable Music Generation Davide Marincione Giorgio Strano Donato Crisostomi Roberto Ribuoli Emanuele Rodolà MGen 60 0 0 06 Apr 2025
Activation Patching for Interpretable Steering in Music Generation Simone Facchiano Giorgio Strano Donato Crisostomi Irene Tallini Tommaso Mencattini Fabio Galasso Emanuele Rodolà LLMSV 24 0 0 06 Apr 2025
VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models Kim Sung-Bin Jeongsoo Choi Puyuan Peng Joon Son Chung Tae-Hyun Oh David Harwath VGen 45 1 0 03 Apr 2025
Watermarking for AI Content Detection: A Review on Text, Visual, and Audio Modalities Lele Cao 41 0 0 02 Apr 2025
A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives Shuyu Li Shulei Ji Zihao Wang Songruoyao Wu Jiaxing Yu Kaipeng Zhang MGen VGen 70 1 0 01 Apr 2025
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens Shivam Mehta Nebojsa Jojic Hannes Gamper 31 0 0 28 Mar 2025
Vision-to-Music Generation: A Survey Zhaokai Wang Chenxi Bao Le Zhuo Jingrui Han Yang Yue Yihong Tang Victor Shea-Jay Huang Yue Liao EGVM VGen 74 1 0 27 Mar 2025
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models Prin Phunyaphibarn Phillip Y. Lee Jaihoon Kim Minhyuk Sung DiffM 89 0 0 26 Mar 2025
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation Max W. Y. Lam Yijin Xing Weiya You Jingcheng Wu Zongyu Yin ... T. Zhao Chien-Hung Liu Xuchen Song Yang Li Yahui Zhou LRM 64 2 0 25 Mar 2025
Human Motion Unlearning Edoardo De Matteis Matteo Migliarini Alessio Sampieri Indro Spinelli Fabio Galasso MU 57 0 0 24 Mar 2025
Aligning Text-to-Music Evaluation with Human Preferences Yichen Huang Zachary Novack Koichi Saito Jiatong Shi Shinji Watanabe Yuki Mitsufuji John Thickstun Chris Donahue EGVM 70 1 0 20 Mar 2025
Continual Multimodal Contrastive Learning Xiaohao Liu Xiaobo Xia See-Kiong Ng Tat-Seng Chua CLL 57 0 0 19 Mar 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Y. Guo 67 3 0 13 Mar 2025
REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder Yitian Zhang Long Mai Aniruddha Mahapatra David Bourgin Yicong Hong Jonah Casebeer Feng Liu Y. Fu DiffM VGen 53 0 0 11 Mar 2025
FilmComposer: LLM-Driven Music Production for Silent Film Clips Zhifeng Xie Qile He Youjia Zhu Qiwei He Mengtian Li VGen 95 2 0 11 Mar 2025
ReelWave: A Multi-Agent Framework Toward Professional Movie Sound Generation Zixuan Wang Chi-Keung Tang Yu-Wing Tai DiffM VGen 60 0 0 10 Mar 2025
A Multimodal Symphony: Integrating Taste and Sound through Generative AI Matteo Spanio Massimiliano Zampini Antonio Rodà Franco Pierucci 39 0 0 04 Mar 2025
InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation C. Zhang Yukun Ma Qian Chen Wen Wang Shengkui Zhao ... Y. Jiang Chaohong Tan Zhifu Gao Zhihao Du B. Ma 50 0 0 28 Feb 2025
DGFM: Full Body Dance Generation Driven by Music Foundation Models Xinran Liu Zhenhua Feng Diptesh Kanojia Wenwu Wang DiffM 66 1 0 27 Feb 2025
DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models Weihao Wu Zhiwei Lin Yixuan Zhou Jingbei Li Rui Niu Qinghua Wu Songjun Cao Long Ma Zhiyong Wu DiffM 44 0 0 27 Feb 2025
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision Che Liu Yingji Zhang D. Zhang Weijie Zhang Chenggong Gong ... André Freitas Qifan Wang Z. Xu Rongjuncheng Zhang Yong Dai AuLLM 76 0 0 26 Feb 2025
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation Ziqiang Liu Shuangrui Ding Zhixiong Zhang Xiaoyi Dong Pan Zhang Yuhang Zang Y. Cao Dahua Lin Jiaqi Wang 76 0 0 18 Feb 2025
TokenSynth: A Token-based Neural Synthesizer for Instrument Cloning and Text-to-Instrument Kyungsu Kim Junghyun Koo Sungho Lee Haesun Joung Kyogu Lee 58 0 0 13 Feb 2025
Hookpad Aria: A Copilot for Songwriters Chris Donahue Shih-Lun Wu Yewon Kim Dave Carlton Ryan Miyakawa John Thickstun 53 1 0 12 Feb 2025
XAttnMark: Learning Robust Audio Watermarking with Cross-Attention Yong-Jin Liu Lie Lu Jihui Jin Lichao Sun Andrea Fanelli 98 1 0 06 Feb 2025
AudioMiXR: Spatial Audio Object Manipulation with 6DoF for Sound Design in Augmented Reality Brandon Woodard Margarita Geleta Joseph J. LaViola Jr. Andrea Fanelli Rhonda Wilson 57 1 0 05 Feb 2025
High-Fidelity Simultaneous Speech-To-Speech Translation Tom Labiausse Laurent Mazaré Edouard Grave P. Pérez Alexandre Défossez Neil Zeghidour 171 0 0 05 Feb 2025
ComplexDec: A Domain-robust High-fidelity Neural Audio Codec with Complex Spectrum Modeling Yi-Chiao Wu Dejan Marković Steven Krenn I. D. Gebru Alexander Richard 61 0 0 04 Feb 2025
Audio-Language Models for Audio-Centric Tasks: A survey Yi Su Jisheng Bai Qisheng Xu Kele Xu Yong Dou AuLLM 99 2 0 28 Jan 2025
Editing Music with Melody and Text: Using ControlNet for Diffusion Transformer Siyuan Hou Shansong Liu Ruibin Yuan Wei Xue Ying Shan Mangsuo Zhao Chao Zhang 87 3 0 17 Jan 2025
COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations Ruben Ciranni Emilian Postolache Giorgio Mariani Michele Mancusi Giorgio Fabbro Emanuele Rodolà Luca Cosmo 74 7 0 10 Jan 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng Xuzhao Li Zeliang Zhang Chenliang Xu VGen 88 7 0 08 Jan 2025
Rare-to-Frequent: Unlocking Compositional Generation Power of Diffusion Models on Rare Concepts with LLM Guidance Dongmin Park Sebin Kim Taehong Moon Minkyu Kim Kangwook Lee Jaewoong Cho DiffM CoGe 64 2 0 08 Jan 2025
Learning the Language of Protein Structure Benoit Gaujac Jérémie Donà Liviu Copoiu Timothy Atkinson Thomas Pierrot Thomas D. Barrett 58 10 0 08 Jan 2025
Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer Michele Mancusi Yurii Halychanskyi K. Cheuk Eloi Moliner Chieh-Hsin Lai ... Junghyun Koo Marco A. Martínez-Ramírez Wei-Hsiang Liao Giorgio Fabbro Yuki Mitsufuji DiffM 85 2 0 08 Jan 2025
Simultaneous Music Separation and Generation Using Multi-Track Latent Diffusion Models Tornike Karchkhadze M. Izadi Shlomo Dubnov DiffM 44 2 0 31 Dec 2024