Visual Sound Localization in the Wild by Cross-Modal Interference Erasing

AAAI Conference on Artificial Intelligence (AAAI), 2022

13 February 2022

Ziwei Liu

ArXiv (abs)PDF HTML Github (29★)

Papers citing "Visual Sound Localization in the Wild by Cross-Modal Interference Erasing"

21 / 21 papers shown

Learning from Silence and Noise for Visual Sound Source Localization

164

29 Aug 2025

FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion

285

06 Mar 2025

AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual SegmentationIEEE transactions on multimedia (TMM), 2025

133

14 Jan 2025

SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

340

07 Nov 2024

A Critical Assessment of Visual Sound Source Localization Models Including Negative AudioIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Xavier Juanola

Gloria Haro

Magdalena Fuentes

387

01 Oct 2024

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

233

05 Mar 2024

Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization

247

05 Mar 2024

STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized AlignmentInternational Conference on Machine Learning (ICML), 2023

Yunji Kim

288

12 Oct 2023

BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation KnowledgeIEEE transactions on multimedia (IEEE TMM), 2023

Zi Huang

176

20 Aug 2023

Audio-Visual Segmentation by Exploring Cross-Modal Mutual SemanticsACM Multimedia (ACM MM), 2023

255

31 Jul 2023

Connecting Multi-modal Contrastive RepresentationsNeural Information Processing Systems (NeurIPS), 2023

Xize Cheng

...

Ziang Zhang

Zhou Zhao

193

22 May 2023

Egocentric Auditory Attention Localization in ConversationsComputer Vision and Pattern Recognition (CVPR), 2023

224

28 Mar 2023

Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and BaselineComputer Vision and Pattern Recognition (CVPR), 2023

Runmin Cong

192

22 Mar 2023

Audio-Driven Co-Speech Gesture Video GenerationNeural Information Processing Systems (NeurIPS), 2022

Ziwei Liu

274

05 Dec 2022

A Closer Look at Weakly-Supervised Audio-Visual Source LocalizationNeural Information Processing Systems (NeurIPS), 2022

Shentong Mo

Pedro Morgado

241

30 Aug 2022

Static and Dynamic Concepts for Self-supervised Video Representation LearningEuropean Conference on Computer Vision (ECCV), 2022

176

26 Jul 2022

Learning to Answer Questions in Dynamic Audio-Visual ScenariosComputer Vision and Pattern Recognition (CVPR), 2022

279

201

26 Mar 2022

Learning Hierarchical Cross-Modal Association for Co-Speech Gesture GenerationComputer Vision and Pattern Recognition (CVPR), 2022

247

135

24 Mar 2022

Semantic-Aware Implicit Neural Audio-Driven Video Portrait GenerationEuropean Conference on Computer Vision (ECCV), 2022

225

162

19 Jan 2022

Audio-Visual Collaborative Representation Learning for Dynamic Saliency Prediction

257

17 Sep 2021

Vision-Infused Deep Audio InpaintingIEEE International Conference on Computer Vision (ICCV), 2019

298

24 Oct 2019