v1v2v3 (latest)

Audio-Visual Segmentation

European Conference on Computer Vision (ECCV), 2022

11 July 2022

Lingpeng Kong

Meng Wang

Yiran Zhong

VOS

ArXiv (abs)PDF HTML Github (398★)

Papers citing "Audio-Visual Segmentation"

50 / 111 papers shown

Learning Visual Affordance from Audio

226

01 Dec 2025

Multi-Modal Scene Graph with Kolmogorov-Arnold Experts for Audio-Visual Question Answering

206

28 Nov 2025

Layover or Direct Flight: Rethinking Audio-Guided Image Segmentation

Joel Alberto Santos

Zongwei Wu

Xavier Alameda-Pineda

Radu Timofte

128

27 Nov 2025

MoLT: Mixture of Layer-Wise Tokens for Efficient Audio-Visual Learning

100

27 Nov 2025

Referring Video Object Segmentation with Cross-Modality Proxy QueriesIEEE transactions on multimedia (TMM), 2025

520

26 Nov 2025

Decoupled Audio-Visual Dataset Distillation

218

22 Nov 2025

Segmenting Collision Sound Sources in Egocentric Videos

335

17 Nov 2025

Complementary and Contrastive Learning for Audio-Visual SegmentationIEEE transactions on multimedia (TMM), 2025

334

11 Oct 2025

SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation

161

11 Oct 2025

Video Object Segmentation-Aware Audio Generation

236

30 Sep 2025

Learning What To Hear: Boosting Sound-Source Association For Robust Audiovisual Instance Segmentation

313

26 Sep 2025

SimToken: A Simple Baseline for Referring Audio-Visual Segmentation

321

22 Sep 2025

Agentic Design Review System

Balaji Vasan Srinivasan

198

14 Aug 2025

AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video

Yogesh Kulkarni

Pooyan Fazli

OffRL VGen LRM

394

05 Aug 2025

Multimodal Referring Segmentation: A Survey

521

01 Aug 2025

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

417

30 Jul 2025

From Waveforms to Pixels: A Survey on Audio-Visual Segmentation

Jia Li

Yapeng Tian

VOS

265

29 Jul 2025

Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning

294

29 Jul 2025

Implicit Counterfactual Learning for Audio-Visual Segmentation

207

28 Jul 2025

DFR: A Decompose-Fuse-Reconstruct Framework for Multi-Modal Few-Shot Segmentation

174

22 Jul 2025

SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual ScenesComputer Vision and Pattern Recognition (CVPR), 2025

269

02 Jun 2025

AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting

399

01 Jun 2025

Zero-Shot Pseudo Labels Generation Using SAM and CLIP for Semi-Supervised Semantic SegmentationInternational Conference on Information Photonics (ICIP), 2025

486

26 May 2025

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video ParsingComputer Vision and Pattern Recognition (CVPR), 2025

Michael Jeffrey Jones

Moitreya Chatterjee

246

14 May 2025

OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models

325

30 Apr 2025

Improving Sound Source Localization with Joint Slot Attention on Image and AudioComputer Vision and Pattern Recognition (CVPR), 2025

461

21 Apr 2025

HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio-Visual Surveillance: Idling Vehicles Detection With Multichannel Audio and Multiscale Visual Cues

Xiwen Li

Ross T. Whitaker

Tolga Tasdizen

425

15 Apr 2025

Aligned Better, Listen Better for Audio-Visual Large Language ModelsInternational Conference on Learning Representations (ICLR), 2025

410

02 Apr 2025

Visual Acoustic Fields

353

31 Mar 2025

Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs

564

29 Mar 2025

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit CooperationComputer Vision and Pattern Recognition (CVPR), 2025

302

17 Mar 2025

Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent AlignmentComputer Vision and Pattern Recognition (CVPR), 2025

287

17 Mar 2025

Audio Visual Segmentation Through Text EmbeddingsInternational Conference on Information Photonics (ICIP), 2025

Kyungbok Lee

You Zhang

Z. Duan

399

22 Feb 2025

AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual SegmentationIEEE transactions on multimedia (TMM), 2025

198

14 Jan 2025

Gotta Hear Them All: Towards Sound Source Aware Audio Generation

658

23 Nov 2024

Towards Open-Vocabulary Audio-Visual Event LocalizationComputer Vision and Pattern Recognition (CVPR), 2024

621

18 Nov 2024

3D Audio-Visual Segmentation

332

04 Nov 2024

Aligning Audio-Visual Joint Representations with an Agentic WorkflowNeural Information Processing Systems (NeurIPS), 2024

Shentong Mo

Yibing Song

308

30 Oct 2024

Joint Audio-Visual Idling Vehicle Detection with Streamlined Input Dependencies

268

28 Oct 2024

Multi-scale Multi-instance Visual Sound Localization and Segmentation

Shentong Mo

Haofan Wang

310

31 Aug 2024

AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation

286

03 Aug 2024

Segment Anything for Videos: A Systematic Survey

Yan Rong

Li Liu

Shiguang Shan

VLM

274

31 Jul 2024

Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment

Joon Son Chung

468

18 Jul 2024

Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation

381

16 Jul 2024

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

377

15 Jul 2024

Can Textual Semantics Mitigate Sounding Object Segmentation Preference?

422

15 Jul 2024

Label-anticipated Event Disentanglement for Audio-Visual Video Parsing

Dan Guo

286

11 Jul 2024

CPM: Class-conditional Prompting Machine for Audio-visual Segmentation

359

07 Jul 2024

SOAF: Scene Occlusion-aware Neural Acoustic Field

Huiyu Gao

Jiahao Ma

David Ahmedt-Aristizabal

Chuong H. Nguyen

Miaomiao Liu

462

02 Jul 2024

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

Dinesh Manocha

450

01 Jul 2024