v1v2 (latest)

Audio-Visual Scene Analysis with Self-Supervised Multisensory Features

10 April 2018

Papers citing "Audio-Visual Scene Analysis with Self-Supervised Multisensory Features"

50 / 491 papers shown

GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer

511

03 Jun 2024

CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale

ZeMing Gong

Austin T. Wang

Joakim Bruslund Haurum

Graham W. Taylor

Angel X. Chang

658

27 May 2024

Images that Sound: Composing Images and Sounds on a Single Canvas

Ziyang Chen

Daniel Geng

Andrew Owens

DiffM

408

20 May 2024

A Survey of Generative Techniques for Spatial-Temporal Data Mining

...

216

15 May 2024

Look Once to Hear: Target Speech Hearing with Noisy ExamplesInternational Conference on Human Factors in Computing Systems (CHI), 2024

326

10 May 2024

Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition

Marah Halawa

Florian Blume

Pia Bideau

Martin Maier

Rasha Abdel Rahman

Olaf Hellwich

CVBM

230

16 Apr 2024

Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models

A. Sophia Koepke

187

09 Apr 2024

SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos

254

08 Apr 2024

Siamese Vision Transformers are Scalable Audio-visual Learners

Yan-Bo Lin

Gedas Bertasius

268

28 Mar 2024

Robust Active Speaker Detection in Noisy Environments

Siva Sai Nagender Vasireddy

Chenxu Zhang

Xiaohu Guo

Yapeng Tian

378

27 Mar 2024

Audio-Visual Segmentation via Unlabeled Frame Exploitation

327

17 Mar 2024

EquiAV: Leveraging Equivariance for Audio-Visual Contrastive LearningInternational Conference on Machine Learning (ICML), 2024

Joon Son Chung

194

14 Mar 2024

Multimodal Transformer With a Low-Computational-Cost Guarantee

Sungjin Park

Edward Choi

159

23 Feb 2024

BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

Wei Bi

Lingpeng Kong

LRM

286

21 Feb 2024

Multimodal Action Quality Assessment

Ling-an Zeng

Wei-Shi Zheng

504

31 Jan 2024

Synchformer: Efficient Synchronization from Sparse Cues

Vladimir E. Iashin

Weidi Xie

Esa Rahtu

Andrew Zisserman

231

29 Jan 2024

POP-3D: Open-Vocabulary 3D Occupancy Prediction from ImagesNeural Information Processing Systems (NeurIPS), 2024

258

17 Jan 2024

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion RecognitionInformation Fusion (Inf. Fusion), 2024

283

11 Jan 2024

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the WildInternational Journal of Computer Vision (IJCV), 2024

Zhi-Song Liu

Robin Courant

Vicky Kalogeiton

341

08 Jan 2024

Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification

Wentao Zhu

269

08 Jan 2024

Balanced Multi-modal Federated Learning via Cross-Modal Infiltration

221

31 Dec 2023

Evaluation of Barlow Twins and VICReg self-supervised learning for sound patterns of bird and anuran species

131

18 Dec 2023

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked ModelingComputer Vision and Pattern Recognition (CVPR), 2023

Shentong Mo

Pedro Morgado

254

02 Dec 2023

Centre Stage: Centricity-based Audio-Visual Temporal Action Detection

Hanyuan Wang

Majid Mirmehdi

Dima Damen

Toby Perrett

187

28 Nov 2023

Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video ParsingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Yating Xu

Conghui Hu

Gim Hee Lee

178

14 Nov 2023

Cross-modal Generative Model for Visual-Guided Binaural Stereo GenerationKnowledge-Based Systems (KBS), 2023

Zhaojian Li

Jiangwei Zhong

Yuan Yuan

242

13 Nov 2023

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and AudioNeural Information Processing Systems (NeurIPS), 2023

150

01 Nov 2023

CAD -- Contextual Multi-modal Alignment for Dynamic AVQAIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

302

25 Oct 2023

Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware Sound Separation

235

18 Oct 2023

GRID: A Platform for General Robot Intelligence Development

271

02 Oct 2023

Emotional Listener Portrait: Neural Listener Head Generation with EmotionIEEE International Conference on Computer Vision (ICCV), 2023

432

29 Sep 2023

RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech SeparationInternational Conference on Learning Representations (ICLR), 2023

Samuel Pegg

Kai Li

Xiaolin Hu

418

29 Sep 2023

$M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding$

^{3}

3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understandingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Muhammad Abdullah Jamal

Omid Mohareri

3DPC

248

26 Sep 2023

SeMAnD: Self-Supervised Anomaly Detection in Multimodal Geospatial Datasets

210

26 Sep 2023

Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training

Pieter Abbeel

126

25 Sep 2023

TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive LearningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Joon Son Chung

176

21 Sep 2023

A Large-scale Dataset for Audio-Language Representation LearningACM Multimedia (ACM MM), 2023

363

20 Sep 2023

Sound Source Localization is All about Cross-Modal AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

Joon Son Chung

221

19 Sep 2023

The Multimodal Information Based Speech Processing (MISP) 2023 Challenge: Audio-Visual Target Speaker ExtractionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

...

Sabato Marco Siniscalchi

O. Scharenborg

Zhong-Qiu Wang

Jia Pan

Jianqing Gao

143

15 Sep 2023

Enhancing multimodal cooperation via sample-level modality valuationComputer Vision and Pattern Recognition (CVPR), 2023

471

12 Sep 2023

Text-to-feature diffusion for audio-visual few-shot learning

A. Sophia Koepke

194

07 Sep 2023

AdVerb: Visually Guided Audio DereverberationIEEE International Conference on Computer Vision (ICCV), 2023

206

23 Aug 2023

Audiovisual Moments in Time: A Large-Scale Annotated Dataset of Audiovisual ActionsPLoS ONE (PLoS ONE), 2023

Michael Joannou

P. Rotshtein

U. Noppeney

149

18 Aug 2023

V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation ModelsAAAI Conference on Artificial Intelligence (AAAI), 2023

Heng Wang

387

18 Aug 2023

Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source LocalizationACM Multimedia (ACM MM), 2023

Wei Huang

159

09 Aug 2023

Target Speech Extraction with Conditional Diffusion ModelInterspeech (Interspeech), 2023

185

08 Aug 2023

DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion ModelsAsian Conference on Computer Vision (ACCV), 2023

176

31 Jul 2023

FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level Gradient CalibrationIEEE International Conference on Computer Vision (ICCV), 2023

Hang Xu

Xiaojun Chang

Xiaodan Liang

216

31 Jul 2023

PEANUT: A Human-AI Collaborative Tool for Annotating Audio-Visual DataACM Symposium on User Interface Software and Technology (UIST), 2023

231

27 Jul 2023

Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures

713

27 Jul 2023