v1v2 (latest)

Semantic Audio-Visual Navigation

Computer Vision and Pattern Recognition (CVPR), 2020

21 December 2020

Papers citing "Semantic Audio-Visual Navigation"

50 / 68 papers shown

Embodied Navigation with Auxiliary Task of Action Description Prediction

Haru Kondoh

Asako Kanezaki

184

21 Oct 2025

Audio-Guided Visual Perception for Audio-Visual Navigation

156

13 Oct 2025

Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation

290

21 Sep 2025

Deep Learning for Personalized Binaural Audio Reproduction

264

30 Aug 2025

AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning

Siminfar Samakoush Galougah

259

10 Aug 2025

How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Indoor Scenes

Mahnoor Fatima Saad

Ziad Al-Halah

VGen

132

04 Aug 2025

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

515

08 Jun 2025

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video ParsingComputer Vision and Pattern Recognition (CVPR), 2025

Michael Jeffrey Jones

Moitreya Chatterjee

246

14 May 2025

Multimodal Perception for Goal-oriented Navigation: A Survey

I-Tak Ieong

Hao Tang

LM&Ro LRM

430

22 Apr 2025

HomeEmergency -- Using Audio to Find and Respond to Emergencies in the HomeIEEE Robotics and Automation Letters (IEEE RA-L), 2025

359

01 Apr 2025

MO-DDN: A Coarse-to-Fine Attribute-based Exploration Agent for Multi-object Demand-driven NavigationNeural Information Processing Systems (NeurIPS), 2024

Hao Dong

394

04 Oct 2024

Disentangled Acoustic Fields For Multimodal Physical Scene Understanding

Chuang Gan

310

16 Jul 2024

SOAF: Scene Occlusion-aware Neural Acoustic Field

Huiyu Gao

Jiahao Ma

David Ahmedt-Aristizabal

Chuong H. Nguyen

Miaomiao Liu

459

02 Jul 2024

Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field PredictionIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024

317

05 May 2024

ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling

269

24 Apr 2024

Leveraging Large Language Model-based Room-Object Relationships Knowledge for Enhancing Multimodal-Input Object Goal Navigation

285

21 Mar 2024

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

286

05 Mar 2024

Disentangled Counterfactual Learning for Physical Audiovisual Commonsense ReasoningNeural Information Processing Systems (NeurIPS), 2023

351

30 Oct 2023

Measuring Acoustics with Collaborative Multiple AgentsInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

392

09 Oct 2023

XVO: Generalized Visual Odometry via Cross-Modal Self-TrainingIEEE International Conference on Computer Vision (ICCV), 2023

Tohida Rehman

Ronit Mandal

Jimuyang Zhang

Debarshi Kumar Sanyal

SSL

454

28 Sep 2023

Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven NavigationNeural Information Processing Systems (NeurIPS), 2023

548

15 Sep 2023

AdVerb: Visually Guided Audio DereverberationIEEE International Conference on Computer Vision (ICCV), 2023

278

23 Aug 2023

Audio-Visual Class-Incremental LearningIEEE International Conference on Computer Vision (ICCV), 2023

Shentong Mo

272

21 Aug 2023

Omnidirectional Information Gathering for Knowledge Transfer-based Audio-Visual NavigationIEEE International Conference on Computer Vision (ICCV), 2023

333

20 Aug 2023

Multi-goal Audio-visual Navigation using Sound Direction MapIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2023

Haruo Kondoh

Asako Kanezaki

338

01 Aug 2023

Multi-Spectral Image Stitching via Spatial Graph ReasoningACM Multimedia (ACM MM), 2023

191

31 Jul 2023

Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and HearIEEE International Conference on Robotics and Automation (ICRA), 2023

Silvio Savarese

Li Fei-Fei

Jiajun Wu

371

01 Jun 2023

Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event ParserNeural Information Processing Systems (NeurIPS), 2023

Yun-hsuan Lai

Yen-Chun Chen

Y. Wang

338

27 May 2023

Learning Semantic-Agnostic and Spatial-Aware Representation for Generalizable Visual-Audio NavigationIEEE Robotics and Automation Letters (RA-L), 2023

503

21 Apr 2023

Sound Localization from Motion: Jointly Learning Sound Direction and Camera RotationIEEE International Conference on Computer Vision (ICCV), 2023

Ziyang Chen

Shengyi Qian

Andrew Owens

333

20 Mar 2023

CASP-Net: Rethinking Video Saliency Prediction from an Audio-VisualConsistency Perceptual PerspectiveComputer Vision and Pattern Recognition (CVPR), 2023

Wei Huang

Guangtao Zhai

190

11 Mar 2023

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene SynthesisNeural Information Processing Systems (NeurIPS), 2023

437

04 Feb 2023

Chat2Map: Efficient Scene Mapping from Multi-Ego ConversationsComputer Vision and Pattern Recognition (CVPR), 2023

374

04 Jan 2023

On Transforming Reinforcement Learning by Transformer: The Development TrajectoryIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Shengchao Hu

Li Shen

385

29 Dec 2022

Knowledge-driven Scene Priors for Semantic Audio-Visual Embodied Navigation

Jean Oh

183

21 Dec 2022

Towards Versatile Embodied NavigationNeural Information Processing Systems (NeurIPS), 2022

Luc Van Gool

266

30 Oct 2022

AVLEN: Audio-Visual-Language Embodied Navigation in 3D EnvironmentsNeural Information Processing Systems (NeurIPS), 2022

Sudipta Paul

Amit K. Roy-Chowdhury

A. Cherian

254

14 Oct 2022

Learning Active Camera for Multi-Object NavigationNeural Information Processing Systems (NeurIPS), 2022

Chuang Gan

305

14 Oct 2022

Retrospectives on the Embodied AI Workshop

...

Jiajun Wu

416

13 Oct 2022

Pay Self-Attention to Audio-Visual NavigationBritish Machine Vision Conference (BMVC), 2022

365

04 Oct 2022

Learning in Audio-visual Context: A Review, Analysis, and New Perspective

332

20 Aug 2022

Finding Fallen Objects Via Asynchronous Audio-Visual IntegrationComputer Vision and Pattern Recognition (CVPR), 2022

Chuang Gan

Antonio Torralba

358

07 Jul 2022

Beyond Visual Field of View: Perceiving 3D Environment with Echoes and Vision

Xiangjie Sui

Esa Rahtu

Hang Zhao

MDE

390

03 Jul 2022

What do navigation agents learn about their environment?Computer Vision and Pattern Recognition (CVPR), 2022

214

17 Jun 2022

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic LearningNeural Information Processing Systems (NeurIPS), 2022

398

123

16 Jun 2022

ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

...

399

434

14 Jun 2022

Multimodal Learning with Transformers: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

663

947

13 Jun 2022

Imagination-augmented Navigation Based on 2D Laser Sensor Observations

195

12 Jun 2022

Human-Following and -guiding in Crowded Environments using Semantic Deep-Reinforcement-Learning for Mobile Service RobotsIEEE International Conference on Robotics and Automation (ICRA), 2022

183

12 Jun 2022

Few-Shot Audio-Visual Learning of Environment AcousticsNeural Information Processing Systems (NeurIPS), 2022

318

08 Jun 2022