Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing

15 December 2024

Papers citing "Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing"

1 / 1 papers shown

Title
Towards Open-Vocabulary Audio-Visual Event Localization Jinxing Zhou D. Guo Ruohao Guo Yuxin Mao Jingjing Hu Yiran Zhong Xiaojun Chang M. Wang VLM 46 4 0 18 Nov 2024