VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

6 June 2024

Papers citing "VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling"

24 / 24 papers shown

Title
OmniAudio: Generating Spatial Audio from 360-Degree Video Huadai Liu Tianyi Luo Qikai Jiang Kaicheng Luo Peiwen Sun ... X. Li Shiliang Zhang Zhijie Yan Zhou Zhao Wei Xue VGen 17 0 0 21 Apr 2025
A Survey on Cross-Modal Interaction Between Music and Multimodal Data Sifei Li Mining Tan Feier Shen Minyan Luo Zijiao Yin Fan Tang W. Dong Changsheng Xu 19 0 0 17 Apr 2025
Generative AI for Film Creation: A Survey of Recent Advances Ruihan Zhang Borou Yu Jiajian Min Yetong Xin Zheng Wei ... Sijia Jiang Peiwen Huang Na Chen Xuanxuan Liu Anyi Rao VGen 19 0 0 11 Apr 2025
Extending Visual Dynamics for Video-to-Music Generation Xiaohao Liu Teng Tu Yunshan Ma Tat-Seng Chua VGen 21 0 0 10 Apr 2025
DeepAudio-V1:Towards Multi-Modal Multi-Stage End-to-End Video to Speech and Audio Generation Haomin Zhang Chang Liu Junjie Zheng Zihao Chen Chaofan Ding Xinhan Di DiffM VGen 40 0 0 28 Mar 2025
Vision-to-Music Generation: A Survey Zhaokai Wang Chenxi Bao Le Zhuo Jingrui Han Yang Yue Yihong Tang Victor Shea-Jay Huang Yue Liao EGVM VGen 37 1 0 27 Mar 2025
Cross-Modal Learning for Music-to-Music-Video Description Generation Zhuoyuan Mao Mengjie Zhao Qiyu Wu Zhi-Wei Zhong Wei-Hsiang Liao Hiromi Wakaki Yuki Mitsufuji DiffM VGen 40 0 0 14 Mar 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Y. Guo 36 3 0 13 Mar 2025
FilmComposer: LLM-Driven Music Production for Silent Film Clips Zhifeng Xie Qile He Youjia Zhu Qiwei He Mengtian Li VGen 53 1 0 11 Mar 2025
HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization Zitang Zhou Ke Mei Yu Lu Tianyi Wang Fengyun Rao 42 2 0 03 Mar 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng X. Li Zeliang Zhang Chenliang Xu VGen 34 6 0 08 Jan 2025
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization Ruiqi Li Siqi Zheng Xize Cheng Ziang Zhang Shengpeng Ji Zhou Zhao VGen 16 0 0 16 Oct 2024
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions Xiaowei Chi Yatian Wang Aosong Cheng Pengjun Fang Zeyue Tian ... Wenhan Luo Qifeng Chen Shanghang Zhang Qi-fei Liu Yi-Ting Guo 22 7 0 30 Jul 2024
ChatMusician: Understanding and Generating Music Intrinsically with LLM Ti-Fen Pan Hanfeng Lin Yi Wang Zeyue Tian Shangda Wu ... Gus Xia Roger Dannenberg Wei Xue Shiyin Kang Yike Guo 38 12 0 25 Feb 2024
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Bin Lin Yang Ye Bin Zhu Jiaxi Cui Munan Ning Peng Jin Li-ming Yuan VLM MLLM 143 145 0 16 Nov 2023
HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec Dongchao Yang Songxiang Liu Rongjie Huang Jinchuan Tian Chao Weng Yuexian Zou 85 45 0 04 May 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 207 1,899 0 30 Jan 2023
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 233 5,353 0 11 Nov 2021
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Yin Cui Boqing Gong ViT 211 499 0 22 Apr 2021
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Krishna Srinivasan K. Raman Jiecao Chen Michael Bendersky Marc Najork VLM 160 239 0 02 Mar 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 251 845 0 17 Feb 2021
ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning Sangho Lee Jiwan Chung Youngjae Yu Gunhee Kim Thomas Breuel Gal Chechik Yale Song 29 36 0 26 Jan 2021
AI Choreographer: Music Conditioned 3D Dance Generation with AIST++ Ruilong Li Sha Yang David A. Ross Angjoo Kanazawa ViT 171 339 0 21 Jan 2021
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 219 1,684 0 28 Jul 2020