AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

29 January 2023

Papers citing "AudioLDM: Text-to-Audio Generation with Latent Diffusion Models"

22 / 72 papers shown

Title
Music Style Transfer with Time-Varying Inversion of Diffusion Models Sifei Li Yuxin Zhang Fan Tang Chongyang Ma Weiming Dong Changsheng Xu DiffM 32 11 0 21 Feb 2024
SonicVisionLM: Playing Sound with Vision Language Models Zhifeng Xie Shengye Yu Qile He Mengtian Li VLM VGen 22 2 0 09 Jan 2024
Investigating the Design Space of Diffusion Models for Speech Enhancement Philippe Gonzalez Zheng-Hua Tan Jan Østergaard Jesper Jensen T. S. Alstrøm Tobias May DiffM 20 5 0 07 Dec 2023
FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models Stathis Galanakis Alexandros Lattas Stylianos Moschoglou S. Zafeiriou 19 2 0 07 Dec 2023
JAMMIN-GPT: Text-based Improvisation using LLMs in Ableton Live Sven Hollowell Tashi Namgyal Paul Marshall 19 0 0 06 Dec 2023
Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation Xingqun Qi Jiahao Pan Peng Li Ruibin Yuan Xiaowei Chi ... Wenhan Luo Wei Xue Shanghang Zhang Qi-fei Liu Yi-Ting Guo SLR 26 11 0 29 Nov 2023
Audio Editing with Non-Rigid Text Prompts Francesco Paissan Luca Della Libera Zhepei Wang Mirco Ravanelli Paris Smaragdis Cem Subakan DiffM 24 5 0 19 Oct 2023
CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models Sreyan Ghosh Ashish Seth Sonal Kumar Utkarsh Tyagi Chandra Kiran Reddy Evuru S. Ramaneswaran S. Sakshi Oriol Nieto R. Duraiswami Dinesh Manocha AuLLM VLM CoGe 30 21 0 12 Oct 2023
Investigating Personalization Methods in Text to Music Generation Manos Plitsis Theodoros Kouzelis Georgios Paraskevopoulos V. Katsouros Yannis Panagakis DiffM 17 10 0 20 Sep 2023
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models Peike Li Bo-Yu Chen Yao Yao Yikai Wang Allen Wang Alex Jinpeng Wang MGen VLM DiffM 57 37 0 09 Aug 2023
Squeezing Large-Scale Diffusion Models for Mobile Jiwoong Choi Minkyu Kim Daehyun Ahn Taesu Kim Yulhwa Kim Do-Hyun Jo H. Jeon Jae-Joon Kim Hyungjun Kim 13 9 0 03 Jul 2023
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model Zhe Ye Wei Xue Xuejiao Tan Jie Chen Qi-fei Liu Yi-Ting Guo DiffM 23 40 0 11 May 2023
Your Diffusion Model is Secretly a Zero-Shot Classifier Alexander C. Li Mihir Prabhudesai Shivam Duggal Ellis L Brown Deepak Pathak DiffM VLM 33 221 0 28 Mar 2023
Learning Temporal Resolution in Spectrogram for Audio Classification Haohe Liu Xubo Liu Qiuqiang Kong Wenwu Wang Mark D. Plumbley 28 7 0 04 Oct 2022
Simple Pooling Front-ends For Efficient Audio Classification Xubo Liu Haohe Liu Qiuqiang Kong Xinhao Mei Mark D. Plumbley Wenwu Wang 35 16 0 03 Oct 2022
BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for Binaural Audio Synthesis Yichong Leng Zehua Chen Junliang Guo Haohe Liu Jiawei Chen ... Lei He Xiang-Yang Li Tao Qin Sheng Zhao Tie-Yan Liu DiffM 51 58 0 30 May 2022
HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection Ke Chen Xingjian Du Bilei Zhu Zejun Ma Taylor Berg-Kirkpatrick Shlomo Dubnov ViT 114 262 0 02 Feb 2022
Audio-to-Image Cross-Modal Generation Maciej Żelaszczyk Jacek Mañdziuk DiffM 46 15 0 27 Sep 2021
Decoupling Magnitude and Phase Estimation with Deep ResUNet for Music Source Separation Qiuqiang Kong Yin Cao Haohe Liu Keunwoo Choi Yuxuan Wang 116 95 0 12 Sep 2021
PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation Yuan Gong Yu-An Chung James R. Glass VLM 99 144 0 02 Feb 2021
DDSP: Differentiable Digital Signal Processing Jesse Engel Lamtharn Hantrakul Chenjie Gu Adam Roberts DiffM 83 366 0 14 Jan 2020
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 212 19,191 0 21 Nov 2016