Long-form music generation with latent diffusion

16 April 2024

Papers citing "Long-form music generation with latent diffusion"

33 / 33 papers shown

Title
Fast Text-to-Audio Generation with Adversarial Post-Training Zachary Novack Zach Evans Zack Zukowski Josiah Taylor CJ Carr ... Adnan Al-Sinan Gian Marco Iodice Julian McAuley Taylor Berg-Kirkpatrick Jordi Pons 11 0 0 13 May 2025
Multi-band Frequency Reconstruction for Neural Psychoacoustic Coding Dianwen Ng Kun Zhou Yi-Wen Chao Zhiwei Xiong B. Ma E. Chng 23 0 0 12 May 2025
DRAGON: Distributional Rewards Optimize Diffusion Generative Models Yatong Bai Jonah Casebeer Somayeh Sojoudi Nicholas J. Bryan DiffM VLM 39 1 0 21 Apr 2025
DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers Heitor R. Guimarães Jiaqi Su Rithesh Kumar Tiago H. Falk Zeyu Jin DiffM 30 2 0 13 Apr 2025
Policy Optimization Algorithms in a Unified Framework Shuang Wu 28 0 0 04 Apr 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Y. Guo 65 3 0 13 Mar 2025
InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation C. Zhang Yukun Ma Qian Chen Wen Wang Shengkui Zhao ... Y. Jiang Chaohong Tan Zhifu Gao Zhihao Du B. Ma 46 0 0 28 Feb 2025
Editing Music with Melody and Text: Using ControlNet for Diffusion Transformer Siyuan Hou Shansong Liu Ruibin Yuan Wei Xue Ying Shan Mangsuo Zhao Chao Zhang 87 3 0 17 Jan 2025
Estimating Musical Surprisal in Audio Mathias Rose Bjare Giorgia Cantisani Stefan Lattner Gerhard Widmer 39 0 0 13 Jan 2025
LoVA: Long-form Video-to-Audio Generation Xin Cheng Xihua Wang Yihan Wu Yuyue Wang Ruihua Song VGen DiffM 38 2 0 31 Dec 2024
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria Bryan Catanzaro Soujanya Poria 52 5 0 30 Dec 2024
SongEditor: Adapting Zero-Shot Song Generation Language Model as a Multi-Task Editor Chenyu Yang Shuai Wang Hangting Chen Jianwei Yu Wei Tan Rongzhi Gu Y. Xu Yizhi Zhou Haina Zhu H. Li KELM 97 1 0 18 Dec 2024
Scaling Transformers for Low-Bitrate High-Quality Speech Coding Julian Parker Anton Smirnov Jordi Pons CJ Carr Zack Zukowski Zach Evans Xubo Liu 70 9 0 29 Nov 2024
Compression of Higher Order Ambisonics with Multichannel RVQGAN Toni Hirvonen Mahmoud Namazi 65 0 0 18 Nov 2024
Shallow Diffuse: Robust and Invisible Watermarking through Low-Dimensional Subspaces in Diffusion Models Wenda Li Huijie Zhang Qing Qu WIGM 41 0 0 28 Oct 2024
Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement Osamu Take Taketo Akama 19 0 0 22 Oct 2024
Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach Rory Young Nicolas Pugeault AAML 54 3 0 14 Oct 2024
SRC-gAudio: Sampling-Rate-Controlled Audio Generation Chenxing Li Manjie Xu Dong Yu DiffM 21 0 0 09 Oct 2024
Presto! Distilling Steps and Layers for Accelerating Music Generation Zachary Novack Ge Zhu Jonah Casebeer Julian McAuley Taylor Berg-Kirkpatrick Nicholas J. Bryan 45 5 0 07 Oct 2024
FakeMusicCaps: a Dataset for Detection and Attribution of Synthetic Music Generated via Text-to-Music Models Luca Comanducci Paolo Bestagini Stefano Tubaro 35 6 0 16 Sep 2024
Seed-Music: A Unified Framework for High Quality and Controlled Music Generation Ye Bai Haonan Chen Jitong Chen Zhuo Chen Yi Deng ... Hang Zhao Ziyi Zhao Dejian Zhong Shicen Zhou Pei Zou DiffM 58 6 0 13 Sep 2024
Multi-Source Music Generation with Latent Diffusion Zhongweiyang Xu Debottam Dutta Yu-Lin Wei Romit Roy Choudhury DiffM 40 1 0 10 Sep 2024
Stable Audio Open Zach Evans Julian Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons 61 36 0 19 Jul 2024
MEDIC: Zero-shot Music Editing with Disentangled Inversion Control Huadai Liu Jialei Wang Rongjie Huang Yang Liu Jiayang Xu Zhou Zhao 16 4 0 18 Jul 2024
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images Rushikesh Zawar Shaurya Dewan Andrew F. Luo Margaret M. Henderson Michael J. Tarr Leila Wehbe VGen CoGe 31 1 0 19 Jun 2024
MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training Kengo Uchida Takashi Shibuya Yuhta Takida Naoki Murata Shusuke Takahashi Shusuke Takahashi Yuki Mitsufuji VGen 40 4 0 04 Jun 2024
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning Yixiao Zhang Yukara Ikemiya Woosung Choi Naoki Murata Marco A. Martínez Ramírez Liwei Lin Gus Xia Wei-Hsiang Liao Yuki Mitsufuji Simon Dixon 42 10 0 28 May 2024
A Survey on Diffusion Models for Time Series and Spatio-Temporal Data Yiyuan Yang Ming Jin Haomin Wen Chaoli Zhang Yuxuan Liang ... Bin Yang Zenglin Xu Jiang Bian Shirui Pan Qingsong Wen DiffM AI4TS SyDa 29 36 0 29 Apr 2024
Fast Timing-Conditioned Latent Audio Diffusion Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons DiffM 74 98 0 07 Feb 2024
Controllable Music Production with Diffusion Models and Guidance Gradients Mark Levy Bruno Di Giorgi Floris Weers Angelos Katharopoulos Tom Nickson DiffM 75 20 0 01 Nov 2023
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models Rongjie Huang Jia-Bin Huang Dongchao Yang Yi Ren Luping Liu Mingze Li Zhenhui Ye Jinglin Liu Xiaoyue Yin Zhou Zhao DiffM 140 304 0 30 Jan 2023
AI-Based Affective Music Generation Systems: A Review of Methods, and Challenges Adyasha Dash Kathleen Agres MGen 15 17 0 10 Jan 2023
HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection Ke Chen Xingjian Du Bilei Zhu Zejun Ma Taylor Berg-Kirkpatrick Shlomo Dubnov ViT 114 262 0 02 Feb 2022