Self-Supervised Generation of Spatial Audio for 360 Video

7 September 2018

Papers citing "Self-Supervised Generation of Spatial Audio for 360 Video"

50 / 118 papers shown

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

147

02 Dec 2025

MRSAudio: A Large-Scale Multimodal Recorded Spatial Audio Dataset with Refined Annotations

...

223

12 Oct 2025

StereoSync: Spatially-Aware Stereo Audio Generation from Video

106

07 Oct 2025

Text2Move: Text-to-moving sound generation via trajectory prediction and temporal alignment

116

26 Sep 2025

Lightweight Implicit Neural Network for Binaural Audio Synthesis

128

17 Sep 2025

Deep Learning for Personalized Binaural Audio Reproduction

179

30 Aug 2025

Spherical Vision Transformers for Audio-Visual Saliency Prediction in 360-Degree Videos

180

27 Aug 2025

ASAudio: A Survey of Advanced Spatial Audio Research

198

08 Aug 2025

ViSAGe: Video-to-Spatial Audio GenerationInternational Conference on Learning Representations (ICLR), 2025

217

13 Jun 2025

Average Calibration Losses for Reliable Uncertainty in Medical Image Segmentation

Theodore Barfoot

Luis C. Garcia-Peraza-Herrera

450

04 Jun 2025

In-the-wild Audio Spatialization with Flexible Text-guided LocalizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

169

01 Jun 2025

Learning to Highlight Audio by Watching MoviesComputer Vision and Pattern Recognition (CVPR), 2025

257

17 May 2025

Differentiable Room Acoustic Rendering with Multi-View Vision Priors

Derong Jin

Ruohan Gao

303

30 Apr 2025

OmniAudio: Generating Spatial Audio from 360-Degree Video

...

451

21 Apr 2025

Hearing Anywhere in Any EnvironmentComputer Vision and Pattern Recognition (CVPR), 2025

Ishwarya Ananthabhotla

266

14 Apr 2025

AV-Surf: Surface-Enhanced Geometry-Aware Novel-View Acoustic Synthesis

198

17 Mar 2025

Aligning Audio-Visual Joint Representations with an Agentic WorkflowNeural Information Processing Systems (NeurIPS), 2024

Shentong Mo

Yibing Song

249

30 Oct 2024

Diff-SAGe: End-to-End Spatial Audio Generation Using Diffusion ModelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Saksham Singh Kushwaha

143

15 Oct 2024

Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent ApproachNeural Information Processing Systems (NeurIPS), 2024

Rory Young

Nicolas Pugeault

AAML

359

14 Oct 2024

End-to-end multi-channel speaker extraction and binaural speech synthesis

165

08 Oct 2024

Self-Supervised Audio-Visual Soundscape StylizationEuropean Conference on Computer Vision (ECCV), 2024

Tingle Li

Renhao Wang

Po-Yao Huang

Andrew Owens

Gopala Anumanchipalli

DiffM SSL

248

22 Sep 2024

Multi-scale Multi-instance Visual Sound Localization and Segmentation

Shentong Mo

Haofan Wang

260

31 Aug 2024

How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and ModelIEEE Transactions on Image Processing (TIP), 2024

270

10 Aug 2024

Audio-visual Generalized Zero-shot Learning the Easy Way

Shentong Mo

Pedro Morgado

239

18 Jul 2024

Modeling and Driving Human Body Soundfields through Acoustic Primitives

286

18 Jul 2024

Semantic Grouping Network for Audio Source Separation

Shentong Mo

Yapeng Tian

227

04 Jul 2024

SOAF: Scene Occlusion-aware Neural Acoustic Field

Huiyu Gao

Jiahao Ma

David Ahmedt-Aristizabal

Chuong H. Nguyen

Miaomiao Liu

396

02 Jul 2024

Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data AugmentationNeural Information Processing Systems (NeurIPS), 2024

Ning-Hsu Wang

Yu-Lun Liu

MDE

256

18 Jun 2024

AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

Swapnil Bhosale

Haosen Yang

Helen Treharne

Jiankang Deng

Xiatian Zhu

329

13 Jun 2024

SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

365

06 Jun 2024

Images that Sound: Composing Images and Sounds on a Single Canvas

Ziyang Chen

Daniel Geng

Andrew Owens

DiffM

405

20 May 2024

Unified Video-Language Pre-training with Synchronized Audio

Shentong Mo

Haofan Wang

Huaxia Li

Xu Tang

268

12 May 2024

MIMOSA: Human-AI Co-Creation of Computational Spatial Audio Effects on Videos

125

23 Apr 2024

Interpreting End-to-End Deep Learning Models for Speech Source Localization Using Layer-wise Relevance PropagationEuropean Signal Processing Conference (EUSIPCO), 2024

Luca Comanducci

Fabio Antonacci

Augusto Sarti

139

04 Apr 2024

Text-to-Audio Generation Synchronized with Videos

Shentong Mo

Jing Shi

Yapeng Tian

DiffM VGen

191

08 Mar 2024

Leveraging Visual Supervision for Array-based Active Speaker Detection and Localization

Davide Berghi

Philip J. B. Jackson

217

21 Dec 2023

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked ModelingComputer Vision and Pattern Recognition (CVPR), 2023

Shentong Mo

Pedro Morgado

254

02 Dec 2023

Weakly-Supervised Audio-Visual SegmentationNeural Information Processing Systems (NeurIPS), 2023

Shentong Mo

Bhiksha Raj

VOS

279

25 Nov 2023

Cross-modal Generative Model for Visual-Guided Binaural Stereo GenerationKnowledge-Based Systems (KBS), 2023

Zhaojian Li

Jiangwei Zhong

Yuan Yuan

234

13 Nov 2023

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and AudioNeural Information Processing Systems (NeurIPS), 2023

145

01 Nov 2023

LAVSS: Location-Guided Audio-Visual Spatial Audio SeparationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Yuxin Ye

Wenming Yang

Yapeng Tian

210

31 Oct 2023

Audio-Visual Instance SegmentationComputer Vision and Pattern Recognition (CVPR), 2023

...

Wenzhen Yue

Ji Shi

Qixun Wang

Peiliang Zhang

Buwen Liang

VLM VOS

358

28 Oct 2023

Measuring Acoustics with Collaborative Multiple AgentsInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

263

09 Oct 2023

Class-Incremental Grouping Network for Continual Audio-Visual LearningIEEE International Conference on Computer Vision (ICCV), 2023

Shentong Mo

Weiguo Pian

Yapeng Tian

CLL VLM

195

11 Sep 2023

PEANUT: A Human-AI Collaborative Tool for Annotating Audio-Visual DataACM Symposium on User Interface Software and Technology (UIST), 2023

231

27 Jul 2023

Learning Spatial Features from Audio-Visual Correspondence in Egocentric VideosComputer Vision and Pattern Recognition (CVPR), 2023

359

10 Jul 2023

RealImpact: A Dataset of Impact Sound Fields for Real ObjectsComputer Vision and Pattern Recognition (CVPR), 2023

Jiajun Wu

210

16 Jun 2023

Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and HearIEEE International Conference on Robotics and Automation (ICRA), 2023

Silvio Savarese

Li Fei-Fei

Jiajun Wu

325

01 Jun 2023

A Unified Audio-Visual Learning Framework for Localization, Separation, and RecognitionInternational Conference on Machine Learning (ICML), 2023

Shentong Mo

Pedro Morgado

210

30 May 2023

DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment

Shentong Mo

Jing Shi

Yapeng Tian

136

22 May 2023