A Unified Audio-Visual Learning Framework for Localization, Separation,
and Recognition

A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition

30 May 2023

Shentong Mo

Papers citing "A Unified Audio-Visual Learning Framework for Localization, Separation, and Recognition"

7 / 7 papers shown

Title
DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap Shentong Mo Zehua Chen Fan Bao Jun-Jie Zhu DiffM 50 0 0 15 Mar 2025
Model-Driven Deep Neural Network for Enhanced AoA Estimation Using 5G gNB Shengheng Liu Xingkang Li Zihuan Mao Peng Liu Yongming Huang 65 6 0 03 Jan 2025
SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera Yuhang He Sangyun Shin Anoop Cherian Niki Trigoni Andrew Markham 70 0 0 31 Dec 2024
Siamese Vision Transformers are Scalable Audio-visual Learners Yan-Bo Lin Gedas Bertasius 30 5 0 28 Mar 2024
AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation Shentong Mo Yapeng Tian VLM 79 47 0 03 May 2023
A Closer Look at Weakly-Supervised Audio-Visual Source Localization Shentong Mo Pedro Morgado 73 64 0 30 Aug 2022
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 192 204 0 23 Jan 2020