Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model

24 April 2023

Papers citing "Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model"

6 / 6 papers shown

Title
Rethinking Score Distilling Sampling for 3D Editing and Generation Xingyu Miao Haoran Duan Yang Long J. Han 4 0 0 03 May 2025
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models Peike Li Bo-Yu Chen Yao Yao Yikai Wang Allen Wang Alex Jinpeng Wang MGen VLM DiffM 24 36 0 09 Aug 2023
SRTNet: Time Domain Speech Enhancement Via Stochastic Refinement Zhibin Qiu Mengfan Fu Yinfeng Yu Lili Yin Fuchun Sun Hao-Ming Huang DiffM 66 13 0 30 Oct 2022
Decoupling Magnitude and Phase Estimation with Deep ResUNet for Music Source Separation Qiuqiang Kong Yin Cao Haohe Liu Keunwoo Choi Yuxuan Wang 92 80 0 12 Sep 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 242 3,790 0 24 Feb 2021
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 189 7,006 0 21 Nov 2016