v1v2 (latest)

AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models

Neural Information Processing Systems (NeurIPS), 2023

3 April 2023

Yuancheng Wang

Jiang Bian

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models"

43 / 43 papers shown

Title
MusRec: Zero-Shot Text-to-Music Editing via Rectified Flow and Diffusion Transformers Ali Boudaghi Hadi Zare 308 0 0 06 Nov 2025
SAO-Instruct: Free-form Audio Editing using Natural Language Instructions Michael Ungersböck Florian Grötschla Luca A. Lanzendörfer June Young Yi Changho Choi Roger Wattenhofer AuLLM 149 1 0 26 Oct 2025
3DiFACE: Synthesizing and Editing Holistic 3D Facial AnimationInternational Conference on 3D Vision (3DV), 2025 Balamurugan Thambiraja Malte Prinzler S. Aliakbarian Darren Cosker Justus Thies DiffM VGen 148 1 0 30 Sep 2025
Guiding Audio Editing with Audio Language Model Zitong Lan Yiduo Hao Mingmin Zhao DiffM KELM 146 4 0 25 Sep 2025
Audio Super-Resolution with Latent Bridge Models Chang Li Zehua Chen Liyuan Wang Jun Zhu 312 3 0 22 Sep 2025
FakeSound2: A Benchmark for Explainable and Generalizable Deepfake Sound Detection Zeyu Xie Yaoyun Zhang Xuenan Xu Yongkang Yin Chenxing Li Mengyue Wu Yuexian Zou 159 0 0 21 Sep 2025
Interpretable Audio Editing Evaluation via Chain-of-Thought Difference-Commonality Reasoning with Multimodal LLMs Yuhang Jia Xu Zhang Yang Chen Hui Wang Enzhi Wang Yong Qin LRM 96 0 0 21 Sep 2025
RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing Liting Gao Yi Yuan Yaru Chen Yuelan Cheng Zhenbo Li Juan Wen Shubin Zhang Wenwu Wang DiffM 112 1 0 17 Sep 2025
DeCodec: Rethinking Audio Codecs as Universal Disentangled Representation Learners Xiaoxue Luo Jinwei Huang Runyan Yang Yingying Gao Junlan Feng Chao Deng Shilei Zhang 134 2 0 11 Sep 2025
Recomposer: Event-roll-guided generative audio editing D. Ellis Eduardo Fonseca Ron J. Weiss K. Wilson Scott Wisdom Hakan Erdogan J. Hershey A. Jansen R. C. Moore Manoj Plakal KELM 82 1 0 05 Sep 2025
WaveLLDM: Design and Development of a Lightweight Latent Diffusion Model for Speech Enhancement and Restoration Kevin Putra Santoso Rizka Wakhidatus Sholikah Raden Venantius Hari Ginardi 147 0 0 28 Aug 2025
Audio-Guided Visual Editing with Complex Multi-Modal Prompts Hyeonyu Kim Seokhoon Jeong Seonghee Han Chanhyuk Choi Taehwan Kim DiffM 89 0 0 28 Aug 2025
ESDD 2026: Environmental Sound Deepfake Detection Challenge Evaluation Plan Han Yin Yang Xiao Rohan Kumar Das Jisheng Bai Ting Dang 74 4 0 06 Aug 2025
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering J. Melechovský Ambuj Mehrish Abhinaba Roy Dorien Herremans 161 2 0 05 Aug 2025
From Contrast to Commonality: Audio Commonality Captioning for Enhanced Audio-Text Cross-modal Understanding in Multimodal LLMs Yuhang Jia Xu Zhang Yong Qin Yang Chen Shiwan Zhao VLM 171 0 0 03 Aug 2025
Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance Akio Hayakawa Masato Ishii Takashi Shibuya Yuki Mitsufuji DiffM VGen 245 1 0 26 Jun 2025
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing Huadai Liu Kaicheng Luo Jialei Wang Wen Wang Qian Chen Zhou Zhao Wei Xue VGen LRM 381 13 0 26 Jun 2025
Abstract Sound Fusion with Unconditional Inversion Models Jing Liu EnQi Lian Moyao Deng 278 0 0 13 Jun 2025
BNMusic: Blending Environmental Noises into Personalized Music Chi Zuo M. B. Møller Pablo Martínez-Nuevo Huayang Huang Yu Wu Ye Zhu 309 0 0 12 Jun 2025
DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization Geonyoung Lee Geonhee Han Paul Hongsuck Seo DiffM 221 1 0 03 Jun 2025
MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction Yunkee Chae Kyogu Lee 337 0 0 29 May 2025
SpeechVerifier: Robust Acoustic Fingerprint against Tampering Attacks via Watermarking Lingfeng Yao Chenpei Huang Shengyao Wang Junpei Xue Hanqing Guo Jiang Liu Hang Zhang Miao Pan 218 1 0 28 May 2025
Text-Queried Audio Source Separation via Hierarchical ModelingIEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2025 Xinlei Yin Xiulian Peng Xue Jiang Zhiwei Xiong Yan Lu 148 0 0 27 May 2025
Audio Texture Manipulation by Exemplar-Based AnalogyIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025 Kan Jen Cheng Tingle Li Gopala Anumanchipalli DiffM 120 2 0 21 Jan 2025
Conditional Latent Diffusion-Based Speech Enhancement Via Dual Context LearningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025 Shengkui Zhao Zexu Pan Kun Zhou Yukun Ma Chuxu Zhang B. Ma DiffM 119 2 0 20 Jan 2025
COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio RepresentationsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Ruben Ciranni Emilian Postolache Giorgio Mariani Michele Mancusi Giorgio Fabbro Emanuele Rodolà Luca Cosmo 610 15 0 10 Jan 2025
FlowSep: Language-Queried Sound Separation with Rectified Flow MatchingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Yi Yuan Xubo Liu Haohe Liu Mark D. Plumbley Wenwu Wang 363 22 0 10 Jan 2025
UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2024 Yuning Han Bingyin Zhao Rui Chu Feng Luo Biplab Sikdar Yingjie Lao DiffM AAML 497 4 0 16 Dec 2024
The Evolution and Future Perspectives of Artificial Intelligence Generated Content Chengzhang Zhu Luobin Cui Ying Tang Jiacun Wang 367 2 0 02 Dec 2024
Did You Hear That? Introducing AADG: A Framework for Generating Benchmark Data in Audio Anomaly Detection Ksheeraja Raghavan Samiran Gode Ankit Parag Shah Surabhi Raghavan Wolfram Burgard Bhiksha Raj Rita Singh 221 0 0 04 Oct 2024
Self-Supervised Audio-Visual Soundscape StylizationEuropean Conference on Computer Vision (ECCV), 2024 Tingle Li Renhao Wang Po-Yao Huang Andrew Owens Gopala Anumanchipalli DiffM SSL 223 7 0 22 Sep 2024
AudioEditor: A Training-Free Diffusion-Based Audio Editing FrameworkIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Yuhang Jia Yang Chen Jinghua Zhao Shiwan Zhao Wenjia Zeng Yong Chen Yong Qin DiffM 119 10 0 19 Sep 2024
Seed-Music: A Unified Framework for High Quality and Controlled Music Generation Ye Bai Haonan Chen Jitong Chen Zhuo Chen Yi Deng ... Hang Zhao Ziyi Zhao Dejian Zhong Shicen Zhou Pei Zou DiffM 282 17 0 13 Sep 2024
Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion ModelsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024 Rohit Jena Ali Taghibakhshi Sahil Jain Gerald Shen Nima Tajbakhsh Arash Vahdat 384 7 0 09 Sep 2024
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning Yixiao Zhang Yukara Ikemiya Woosung Choi Naoki Murata Marco A. Martínez-Ramírez Liwei Lin Gus Xia Wei-Hsiang Liao Yuki Mitsufuji Simon Dixon 362 22 0 28 May 2024
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations David Xu 218 2 0 17 May 2024
MusicHiFi: Fast High-Fidelity Stereo Vocoding Ge Zhu Juan-Pablo Caceres Zhiyao Duan Nicholas J. Bryan DiffM 238 8 0 15 Mar 2024
SingVisio: Visual Analytics of Diffusion Model for Singing Voice Conversion Liumeng Xue Chaoren Wang Mingxuan Wang Xueyao Zhang Jun Han Zhizheng Wu DiffM 170 6 0 20 Feb 2024
Listen, Chat, and Remix: Text-Guided Soundscape Remixing for Enhanced Auditory ExperienceIEEE Journal on Selected Topics in Signal Processing (JSTSP), 2024 Xilin Jiang Cong Han Yinghao Aaron Li N. Mesgarani KELM 325 6 0 06 Feb 2024
Audio Editing with Non-Rigid Text Prompts Francesco Paissan Luca Della Libera Zhepei Wang Mirco Ravanelli Paris Smaragdis Cem Subakan DiffM 180 11 0 19 Oct 2023
Loop Copilot: Conducting AI Ensembles for Music Generation and Iterative Editing Yixiao Zhang Akira Maezawa Gus Xia Kazuhiko Yamamoto Simon Dixon 141 21 0 19 Oct 2023
UniAudio: An Audio Foundation Model Toward Universal Audio Generation Dongchao Yang Jinchuan Tian Xuejiao Tan Rongjie Huang Songxiang Liu ... Jiang Bian Xixin Wu Zhou Zhao Shinji Watanabe Helen M. Meng CVBM AuLLM 439 181 0 01 Oct 2023
Vision-Infused Deep Audio InpaintingIEEE International Conference on Computer Vision (ICCV), 2019 Hang Zhou Ziwei Liu Lingfeng Guo Ping Luo Dahua Lin 286 91 0 24 Oct 2019