Music Gesture for Visual Sound Separation

Computer Vision and Pattern Recognition (CVPR), 2020

20 April 2020

Chuang Gan

Deng Huang

Hang Zhao

J. Tenenbaum

Antonio Torralba

ArXiv (abs)PDF HTML

Papers citing "Music Gesture for Visual Sound Separation"

50 / 131 papers shown

AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering

173

21 Oct 2025

High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling

244

26 Sep 2025

Self-Supervised Cross-Modal Learning for Image-to-Point Cloud Registration

164

19 Sep 2025

Reading to Listen at the Cocktail Party: Multi-Modal Speech SeparationComputer Vision and Pattern Recognition (CVPR), 2022

Akam Rahimi

Triantafyllos Afouras

Andrew Zisserman

424

02 Jan 2025

A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation LearningACM Computing Surveys (ACM CSUR), 2024

Luis Vilaca

Yi Yu

Paula Vinan

540

24 Nov 2024

Continual Audio-Visual Sound SeparationNeural Information Processing Systems (NeurIPS), 2024

414

05 Nov 2024

Aligning Audio-Visual Joint Representations with an Agentic WorkflowNeural Information Processing Systems (NeurIPS), 2024

Shentong Mo

Yibing Song

308

30 Oct 2024

Multi-scale Multi-instance Visual Sound Localization and Segmentation

Shentong Mo

Haofan Wang

316

31 Aug 2024

CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event LocalizationACM Multimedia (MM), 2024

Yi Zeng

313

04 Aug 2024

Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

Guangyao Li

Henghui Du

Di Hu

270

30 Jul 2024

Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment

Joon Son Chung

477

18 Jul 2024

Audio-visual Generalized Zero-shot Learning the Easy Way

Shentong Mo

Pedro Morgado

291

18 Jul 2024

Semantic Grouping Network for Audio Source Separation

Shentong Mo

Yapeng Tian

357

04 Jul 2024

Cross-Modality Program Representation Learning for Electronic Design Automation with High-Level Synthesis

Ziniu Hu

Yizhou Sun

Jason Cong

460

13 Jun 2024

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers

214

07 Jun 2024

Robust Active Speaker Detection in Noisy Environments

Siva Sai Nagender Vasireddy

Chenxu Zhang

Xiaohu Guo

Yapeng Tian

447

27 Mar 2024

Text-to-Audio Generation Synchronized with Videos

Shentong Mo

Jing Shi

Yapeng Tian

DiffM VGen

247

08 Mar 2024

MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D WorldComputer Vision and Pattern Recognition (CVPR), 2024

Chuang Gan

336

16 Jan 2024

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video RecognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

400

11 Jan 2024

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked ModelingComputer Vision and Pattern Recognition (CVPR), 2023

Shentong Mo

Pedro Morgado

306

02 Dec 2023

Weakly-Supervised Audio-Visual SegmentationNeural Information Processing Systems (NeurIPS), 2023

Shentong Mo

Bhiksha Raj

VOS

354

25 Nov 2023

Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video ParsingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Yating Xu

Conghui Hu

Gim Hee Lee

223

14 Nov 2023

Cross-modal Generative Model for Visual-Guided Binaural Stereo GenerationKnowledge-Based Systems (KBS), 2023

Zhaojian Li

Jiangwei Zhong

Yuan Yuan

316

13 Nov 2023

LAVSS: Location-Guided Audio-Visual Spatial Audio SeparationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Yuxin Ye

Wenming Yang

Yapeng Tian

283

31 Oct 2023

Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation

284

18 Oct 2023

Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-AnsweringIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Xiulong Liu

Zhikang Dong

Peng Zhang

268

10 Oct 2023

Sound Source Localization is All about Cross-Modal AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

Joon Son Chung

317

19 Sep 2023

Class-Incremental Grouping Network for Continual Audio-Visual LearningIEEE International Conference on Computer Vision (ICCV), 2023

Shentong Mo

Weiguo Pian

Yapeng Tian

CLL VLM

251

11 Sep 2023

AdVerb: Visually Guided Audio DereverberationIEEE International Conference on Computer Vision (ICCV), 2023

285

23 Aug 2023

Audio-Visual Class-Incremental LearningIEEE International Conference on Computer Vision (ICCV), 2023

Shentong Mo

275

21 Aug 2023

Progressive Spatio-temporal Perception for Audio-Visual Question AnsweringACM Multimedia (ACM MM), 2023

Guangyao Li

Wenxuan Hou

Di Hu

325

10 Aug 2023

DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion ModelsAsian Conference on Computer Vision (ACCV), 2023

223

31 Jul 2023

Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing

Jie Fu

Junyu Gao

Changsheng Xu

340

05 Jul 2023

Visually-Guided Sound Source Separation with Audio-Visual Predictive CodingIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023

Zengjie Song

Zhaoxiang Zhang

222

19 Jun 2023

Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and HearIEEE International Conference on Robotics and Automation (ICRA), 2023

Silvio Savarese

Li Fei-Fei

Jiajun Wu

380

01 Jun 2023

A Unified Audio-Visual Learning Framework for Localization, Separation, and RecognitionInternational Conference on Machine Learning (ICML), 2023

Shentong Mo

Pedro Morgado

255

30 May 2023

ProgSG: Cross-Modality Representation Learning for Programs in Electronic Design Automation

Zongyue Qin

454

18 May 2023

DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head Video GenerationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Fa-Ting Hong

Li Shen

Dan Xu

3DH CVBM

306

10 May 2023

A vector quantized masked autoencoder for audiovisual speech emotion recognitionComputer Vision and Image Understanding (CVIU), 2023

642

05 May 2023

Self-Supervised Multimodal Learning: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Yongshuo Zong

Oisin Mac Aodha

Timothy M. Hospedales

SSL

450

109

31 Mar 2023

Audio-Visual Grouping Network for Sound Localization from MixturesComputer Vision and Pattern Recognition (CVPR), 2023

Shentong Mo

Yapeng Tian

241

29 Mar 2023

Physics-Driven Diffusion Models for Impact Sound Synthesis from VideosComputer Vision and Pattern Recognition (CVPR), 2023

Kun Su

Kaizhi Qian

Eli Shlizerman

Antonio Torralba

Chuang Gan

VGen AI4CE

374

29 Mar 2023

Egocentric Audio-Visual Object LocalizationComputer Vision and Pattern Recognition (CVPR), 2023

348

23 Mar 2023

iQuery: Instruments as Queries for Audio-Visual Sound SeparationComputer Vision and Pattern Recognition (CVPR), 2022

335

07 Dec 2022

Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source SeparationNeural Information Processing Systems (NeurIPS), 2022

Moitreya Chatterjee

Narendra Ahuja

A. Cherian

231

29 Oct 2022

Pay Self-Attention to Audio-Visual NavigationBritish Machine Vision Conference (BMVC), 2022

382

04 Oct 2022

A Closer Look at Weakly-Supervised Audio-Visual Source LocalizationNeural Information Processing Systems (NeurIPS), 2022

Shentong Mo

Pedro Morgado

295

30 Aug 2022

Learning in Audio-visual Context: A Review, Analysis, and New Perspective

340

20 Aug 2022

ConceptBeam: Concept Driven Target Speech ExtractionACM Multimedia (ACM MM), 2022

261

25 Jul 2022

AudioScopeV2: Audio-Visual Attention Architectures for Calibrated Open-Domain On-Screen Sound SeparationEuropean Conference on Computer Vision (ECCV), 2022

348

20 Jul 2022