v1v2 (latest)

Multiple Sound Sources Localization from Coarse to Fine

European Conference on Computer Vision (ECCV), 2020

13 July 2020

ArXiv (abs)PDF HTML Github (83★)

Papers citing "Multiple Sound Sources Localization from Coarse to Fine"

50 / 114 papers shown

Segmenting Collision Sound Sources in Egocentric Videos

335

17 Nov 2025

Complementary and Contrastive Learning for Audio-Visual SegmentationIEEE transactions on multimedia (TMM), 2025

336

11 Oct 2025

Learning What To Hear: Boosting Sound-Source Association For Robust Audiovisual Instance Segmentation

323

26 Sep 2025

High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling

244

26 Sep 2025

Learning from Silence and Noise for Visual Sound Source Localization

242

29 Aug 2025

VGGSounder: Audio-Visual Evaluations for Foundation Models

Daniil Zverev

Thaddäus Wiedemer

Christian Schroeder de Witt

337

11 Aug 2025

ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization

242

14 Jul 2025

Action Dubber: Timing Audible Actions via Inflectional Flow

239

16 Jun 2025

Learning to Highlight Audio by Watching MoviesComputer Vision and Pattern Recognition (CVPR), 2025

372

17 May 2025

Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization

367

08 May 2025

OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models

329

30 Apr 2025

Improving Sound Source Localization with Joint Slot Attention on Image and AudioComputer Vision and Pattern Recognition (CVPR), 2025

467

21 Apr 2025

Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent AlignmentComputer Vision and Pattern Recognition (CVPR), 2025

288

17 Mar 2025

Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video ParsingAAAI Conference on Artificial Intelligence (AAAI), 2024

376

15 Dec 2024

Towards Open-Vocabulary Audio-Visual Event LocalizationComputer Vision and Pattern Recognition (CVPR), 2024

622

18 Nov 2024

SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

411

07 Nov 2024

Aligning Audio-Visual Joint Representations with an Agentic WorkflowNeural Information Processing Systems (NeurIPS), 2024

Shentong Mo

Yibing Song

310

30 Oct 2024

A Critical Assessment of Visual Sound Source Localization Models Including Negative AudioIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Xavier Juanola

Gloria Haro

Magdalena Fuentes

451

01 Oct 2024

Multi-scale Multi-instance Visual Sound Localization and Segmentation

Shentong Mo

Haofan Wang

316

31 Aug 2024

Enhancing Sound Source Localization via False Negative EliminationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

Zhaoxiang Zhang

382

29 Aug 2024

AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation

286

03 Aug 2024

Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment

Joon Son Chung

477

18 Jul 2024

Modeling and Driving Human Body Soundfields through Acoustic Primitives

383

18 Jul 2024

Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation

381

16 Jul 2024

Semantic Grouping Network for Audio Source Separation

Shentong Mo

Yapeng Tian

357

04 Jul 2024

SAVE: Segment Audio-Visual Easy way using Segment Anything Model

Khanh-Binh Nguyen

Chae Jung Park

VLM VOS

439

02 Jul 2024

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

214

07 Jun 2024

Progressive Confident Masking Attention Network for Audio-Visual Segmentation

Yuxuan Wang

Feng Dong

Jinchao Zhu

Shuyue Zhu

VOS

433

04 Jun 2024

Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling

Meng Wang

280

03 Jun 2024

Unified Video-Language Pre-training with Synchronized Audio

Shentong Mo

Haofan Wang

Huaxia Li

Xu Tang

302

12 May 2024

SemiPL: A Semi-supervised Method for Event Sound Source Localization

283

30 Apr 2024

Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models

A. Sophia Koepke

249

09 Apr 2024

T-VSL: Text-Guided Visual Sound Source Localization in MixturesComputer Vision and Pattern Recognition (CVPR), 2024

Tanvir Mahmud

Yapeng Tian

Diana Marculescu

239

02 Apr 2024

Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge

218

26 Mar 2024

Unsupervised Audio-Visual Segmentation with Modality Alignment

235

21 Mar 2024

Audio-Visual Segmentation via Unlabeled Frame Exploitation

390

17 Mar 2024

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

289

05 Mar 2024

Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization

276

05 Mar 2024

EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving

Kailun Yang

337

28 Feb 2024

Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues

348

04 Feb 2024

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

Wentao Zhu

356

08 Jan 2024

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

Pengfei Gao

Pengfei Yan

262

11 Dec 2023

Weakly-Supervised Audio-Visual SegmentationNeural Information Processing Systems (NeurIPS), 2023

Shentong Mo

Bhiksha Raj

VOS

354

25 Nov 2023

Can CLIP Help Sound Source Localization?IEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Sooyoung Park

Arda Senocak

Joon Son Chung

216

07 Nov 2023

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and AudioNeural Information Processing Systems (NeurIPS), 2023

191

01 Nov 2023

Leveraging Hyperbolic Embeddings for Coarse-to-Fine Robot DesignInternational Conference on Learning Representations (ICLR), 2023

Heng Dong

Junyu Zhang

Chongjie Zhang

501

01 Nov 2023

LAVSS: Location-Guided Audio-Visual Spatial Audio SeparationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Yuxin Ye

Wenming Yang

Yapeng Tian

283

31 Oct 2023

Multimodal Variational Auto-encoder based Audio-Visual SegmentationIEEE International Conference on Computer Vision (ICCV), 2023

Yuchao Dai

216

12 Oct 2023

Cross-modal Cognitive Consensus guided Audio-Visual SegmentationIEEE transactions on multimedia (IEEE TMM), 2023

Zhaofeng Shi

Qingbo Wu

Fanman Meng

Linfeng Xu

Hongliang Li

VOS

521

10 Oct 2023

QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic DecompositionComputer Vision and Pattern Recognition (CVPR), 2023

Xiang Li

Bhiksha Raj

416

29 Sep 2023