MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

19 December 2024

Takashi Shibuya

Papers citing "MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis"

10 / 10 papers shown

Title
OmniAudio: Generating Spatial Audio from 360-Degree Video Huadai Liu Tianyi Luo Qikai Jiang Kaicheng Luo Peiwen Sun ... X. Li Shiliang Zhang Zhijie Yan Zhou Zhao Wei Xue VGen 46 0 0 21 Apr 2025
OmniTalker: Real-Time Text-Driven Talking Head Generation with In-Context Audio-Visual Style Replication Zhongjian Wang Peng Zhang Jinwei Qi Guangyuan Wang Sheng Xu Bang Zhang Liefeng Bo DiffM VGen 33 0 0 03 Apr 2025
DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos Yunming Liang Zihao Chen Chaofan Ding Xinhan Di DiffM VGen 50 0 0 28 Mar 2025
Enhance Generation Quality of Flow Matching V2A Model via Multi-Step CoT-Like Guidance and Combined Preference Optimization Haomin Zhang S. Haoyu Wang Zihao Chen X. Liu Chaofan Ding Xinhan Di 28 0 0 28 Mar 2025
DeepAudio-V1:Towards Multi-Modal Multi-Stage End-to-End Video to Speech and Audio Generation Haomin Zhang Chang Liu Junjie Zheng Zihao Chen Chaofan Ding Xinhan Di DiffM VGen 83 0 0 28 Mar 2025
The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation Ho Kei Cheng Alexander Schwing OT 68 0 0 13 Mar 2025
Long-Video Audio Synthesis with Multi-Agent Collaboration Yehang Zhang Xinli Xu Xiaojie Xu L. Liu Y. Chen DiffM VGen 45 0 0 13 Mar 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Y. Guo 63 3 0 13 Mar 2025
KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation Yoonjin Chung Pilsun Eu Junwon Lee Keunwoo Choi Juhan Nam Ben Sangbae Chon EGVM 54 3 0 21 Feb 2025
Gotta Hear Them All: Sound Source Aware Vision to Audio Generation Wei Guo Heng Wang Jianbo Ma Weidong Cai DiffM 80 3 0 23 Nov 2024