Aligning Sight and Sound: Advanced Sound Source Localization Through
Audio-Visual Alignment

Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment

18 July 2024

Hanspeter Pfister

Joon Son Chung

Papers citing "Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment"

10 / 10 papers shown

Title
Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization Sooyoung Park Arda Senocak Joon Son Chung VLM 35 0 0 08 May 2025
Sound2Vision: Generating Diverse Visuals from Audio through Cross-Modal Latent Alignment Kim Sung-Bin Arda Senocak Hyunwoo Ha Tae-Hyun Oh DiffM 65 0 0 09 Dec 2024
A Critical Assessment of Visual Sound Source Localization Models Including Negative Audio Xavier Juanola Gloria Haro Magdalena Fuentes 28 2 0 01 Oct 2024
Audio-Visual Segmentation with Semantics Jinxing Zhou Xuyang Shen Jianyuan Wang Jiayi Zhang Weixuan Sun ... Stan Birchfield Dan Guo Lingpeng Kong Meng Wang Yiran Zhong VOS 30 37 0 30 Jan 2023
A Closer Look at Weakly-Supervised Audio-Visual Source Localization Shentong Mo Pedro Morgado 67 64 0 30 Aug 2022
CyCLIP: Cyclic Contrastive Language-Image Pretraining Shashank Goel Hritik Bansal S. Bhatia Ryan A. Rossi Vishwa Vinay Aditya Grover CLIP VLM 160 131 0 28 May 2022
With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations Debidatta Dwibedi Y. Aytar Jonathan Tompson P. Sermanet Andrew Zisserman SSL 175 382 0 29 Apr 2021
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 174 196 0 08 Jan 2021
Self-supervised Co-training for Video Representation Learning Tengda Han Weidi Xie Andrew Zisserman SSL 193 371 0 19 Oct 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 229 3,029 0 09 Mar 2020