Full-band General Audio Synthesis with Score-based Diffusion

26 October 2022

Papers citing "Full-band General Audio Synthesis with Score-based Diffusion"

27 / 27 papers shown

Title
Scaling Transformers for Low-Bitrate High-Quality Speech Coding Julian Parker Anton Smirnov Jordi Pons CJ Carr Zack Zukowski Zach Evans Xubo Liu 75 9 0 29 Nov 2024
MambaFoley: Foley Sound Generation using Selective State-Space Models Marco Furio Colombo Francesca Ronchini Luca Comanducci Fabio Antonacci Mamba 20 1 0 13 Sep 2024
Audio Decoding by Inverse Problem Solving Pedro J. Villasana T. Lars Villemoes J. Klejsa Per Hedelin DiffM 30 1 0 12 Sep 2024
Enhancing Emotional Text-to-Speech Controllability with Natural Language Guidance through Contrastive Learning and Diffusion Models Xin Jing Kun Zhou Andreas Triantafyllopoulos Björn W. Schuller DiffM 27 3 0 10 Sep 2024
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity Santiago Pascual Chunghsin Yeh Ioannis Tsiamas Joan Serra DiffM VGen 39 15 0 15 Jul 2024
Naturalistic Music Decoding from EEG Data via Latent Diffusion Models Emilian Postolache Natalia Polouliakh Hiroaki Kitano Akima Connelly Emanuele Rodolà Luca Cosmo Taketo Akama MedIm DiffM 35 2 0 15 May 2024
Long-form music generation with latent diffusion Zach Evans Julian Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons MGen DiffM 36 39 0 16 Apr 2024
AUTODIFF: Autoregressive Diffusion Modeling for Structure-based Drug Design Xinze Li Penglei Wang Tianfan Fu Wenhao Gao Chengtao Li Leilei Shi Junhong Liu 41 2 0 02 Apr 2024
Fast Timing-Conditioned Latent Audio Diffusion Zach Evans CJ Carr Josiah Taylor Scott H. Hawley Jordi Pons DiffM 74 101 0 07 Feb 2024
T-FOLEY: A Controllable Waveform-Domain Diffusion Model for Temporal-Event-Guided Foley Sound Synthesis Yoonjin Chung Junwon Lee Juhan Nam 40 13 0 17 Jan 2024
Towards Flexible, Scalable, and Adaptive Multi-Modal Conditioned Face Synthesis Jingjing Ren Cheng Xu Haoyu Chen Xinran Qin Lei Zhu CVBM DiffM 24 4 0 26 Dec 2023
EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis Ge Zhu Yutong Wen M. Carbonneau Zhiyao Duan DiffM 43 7 0 15 Nov 2023
Generative De-Quantization for Neural Speech Codec via Latent Diffusion Haici Yang Inseon Jang Minje Kim DiffM 32 6 0 14 Nov 2023
SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis Marco Comunità R. F. Gramaccioni Emilian Postolache Emanuele Rodolà Danilo Comminiello Joshua D. Reiss DiffM 22 16 0 23 Oct 2023
Energy-Based Models For Speech Synthesis Wanli Sun Zehai Tu Anton Ragni DiffM 24 0 0 19 Oct 2023
A Unified Framework for Generative Data Augmentation: A Comprehensive Survey Yunhao Chen Zihui Yan Yunjie Zhu 29 3 0 30 Sep 2023
Audio Generation with Multiple Conditional Diffusion Model Zhifang Guo Jianguo Mao Ruijie Tao Long Yan Kazushige Ouchi Hong Liu Xiangdong Wang DiffM 19 11 0 23 Aug 2023
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion Robin San Roman Yossi Adi Antoine Deleforge Romain Serizel Gabriel Synnaeve Alexandre Défossez DiffM 19 21 0 02 Aug 2023
Image Synthesis under Limited Data: A Survey and Taxonomy Mengping Yang Zhe Wang 28 8 0 31 Jul 2023
NoiseBandNet: Controllable Time-Varying Neural Synthesis of Sound Effects Using Filterbanks Adrián Barahona-Ríos Tom Collins 21 6 0 16 Jul 2023
CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models Hao-Wen Dong Xiaoyu Liu Jordi Pons Gautam Bhattacharya Santiago Pascual Joan Serra Taylor Berg-Kirkpatrick Julian McAuley DiffM 22 19 0 16 Jun 2023
Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach Eloi Moliner Filip Elvander Vesa Valimaki DiffM 30 10 0 02 Jun 2023
A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI Chenshuang Zhang Chaoning Zhang Sheng Zheng Mengchun Zhang Maryam Qamar Sung-Ho Bae In So Kweon DiffM MedIm 39 64 0 23 Mar 2023
A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? Chaoning Zhang Chenshuang Zhang Sheng Zheng Yu Qiao Chenghao Li ... Lik-Hang Lee Yang Yang Heng Tao Shen In So Kweon Choong Seon Hong 77 159 0 21 Mar 2023
Distribution Preserving Source Separation With Time Frequency Predictive Models Pedro J. Villasana T J. Klejsa Lars Villemoes P. Hedelin 11 2 0 10 Mar 2023
Multi-Source Diffusion Models for Simultaneous Music Generation and Separation Giorgio Mariani Irene Tallini Emilian Postolache Michele Mancusi Luca Cosmo Emanuele Rodolà DiffM 22 36 0 04 Feb 2023
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models Haohe Liu Zehua Chen Yiitan Yuan Xinhao Mei Xubo Liu Danilo P. Mandic Wenwu Wang Mark D. Plumbley DiffM 33 467 0 29 Jan 2023