v1v2 (latest)

Look, Listen, and Act: Towards Audio-Visual Embodied Navigation

IEEE International Conference on Robotics and Automation (ICRA), 2019

25 December 2019

Chuang Gan

Jiajun Wu

Papers citing "Look, Listen, and Act: Towards Audio-Visual Embodied Navigation"

50 / 79 papers shown

Embodied Navigation with Auxiliary Task of Action Description Prediction

Haru Kondoh

Asako Kanezaki

182

21 Oct 2025

Audio-Guided Visual Perception for Audio-Visual Navigation

146

13 Oct 2025

Iterative Residual Cross-Attention Mechanism: An Integrated Approach for Audio-Visual Navigation Tasks

100

30 Sep 2025

Dynamic Multi-Target Fusion for Efficient Audio-Visual Navigation

Yinfeng Yu

Hailong Zhang

Meiling Zhu

102

23 Sep 2025

Advancing Audio-Visual Navigation Through Multi-Agent Collaboration in 3D Environments

127

21 Sep 2025

The Sound of Simulation: Learning Multimodal Sim-to-Real Robot Policies with Generative Audio

Gopala Anumanchipalli

279

03 Jul 2025

Differentiable Room Acoustic Rendering with Multi-View Vision Priors

Derong Jin

Ruohan Gao

368

30 Apr 2025

Multimodal Perception for Goal-oriented Navigation: A Survey

I-Tak Ieong

Hao Tang

LM&Ro LRM

417

22 Apr 2025

Hearing Anywhere in Any EnvironmentComputer Vision and Pattern Recognition (CVPR), 2025

Ishwarya Ananthabhotla

371

14 Apr 2025

AI-Gadget Kit: Integrating Swarm User Interfaces with LLM-driven Agents for Rich Tabletop Game Applications

187

24 Jul 2024

NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields

Amandine Brunetto

Sascha Hornauer

Fabien Moutarde

623

28 May 2024

Audio-Visual Segmentation via Unlabeled Frame Exploitation

384

17 Mar 2024

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and AudioNeural Information Processing Systems (NeurIPS), 2023

186

01 Nov 2023

Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven NavigationNeural Information Processing Systems (NeurIPS), 2023

546

15 Sep 2023

Omnidirectional Information Gathering for Knowledge Transfer-based Audio-Visual NavigationIEEE International Conference on Computer Vision (ICCV), 2023

330

20 Aug 2023

Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and HearIEEE International Conference on Robotics and Automation (ICRA), 2023

Silvio Savarese

Li Fei-Fei

Jiajun Wu

367

01 Jun 2023

Physics-Driven Diffusion Models for Impact Sound Synthesis from VideosComputer Vision and Pattern Recognition (CVPR), 2023

Kun Su

Kaizhi Qian

Eli Shlizerman

Antonio Torralba

Chuang Gan

VGen AI4CE

361

29 Mar 2023

Chat2Map: Efficient Scene Mapping from Multi-Ego ConversationsComputer Vision and Pattern Recognition (CVPR), 2023

373

04 Jan 2023

On Realization of Intelligent Decision-Making in the Real World: A Foundation Decision Model Perspective

Jingxiao Chen

269

24 Dec 2022

Knowledge-driven Scene Priors for Semantic Audio-Visual Embodied Navigation

Jean Oh

183

21 Dec 2022

A General Purpose Supervisory Signal for Embodied Agents

287

01 Dec 2022

Ask4Help: Learning to Leverage an Expert for Embodied TasksNeural Information Processing Systems (NeurIPS), 2022

241

18 Nov 2022

HUMANISE: Language-conditioned Human Motion Generation in 3D ScenesNeural Information Processing Systems (NeurIPS), 2022

265

178

18 Oct 2022

AVLEN: Audio-Visual-Language Embodied Navigation in 3D EnvironmentsNeural Information Processing Systems (NeurIPS), 2022

Sudipta Paul

Amit K. Roy-Chowdhury

A. Cherian

248

14 Oct 2022

Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language NavigationNeural Information Processing Systems (NeurIPS), 2022

Chuang Gan

267

110

14 Oct 2022

Learning Active Camera for Multi-Object NavigationNeural Information Processing Systems (NeurIPS), 2022

Chuang Gan

304

14 Oct 2022

Retrospectives on the Embodied AI Workshop

...

Jiajun Wu

413

13 Oct 2022

AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio Visual Event LocalizationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Tanvir Mahmud

Diana Marculescu

CLIP

265

11 Oct 2022

Pay Self-Attention to Audio-Visual NavigationBritish Machine Vision Conference (BMVC), 2022

355

04 Oct 2022

Anticipating the Unseen Discrepancy for Vision and Language Navigation

272

10 Sep 2022

Learning in Audio-visual Context: A Review, Analysis, and New Perspective

331

20 Aug 2022

Impact Makes a Sound and Sound Makes an Impact: Sound Guides Representations and ExplorationsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2022

Xufeng Zhao

C. Weber

Muhammad Burhan Hafez

S. Wermter

229

04 Aug 2022

Finding Fallen Objects Via Asynchronous Audio-Visual IntegrationComputer Vision and Pattern Recognition (CVPR), 2022

Chuang Gan

Antonio Torralba

352

07 Jul 2022

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic LearningNeural Information Processing Systems (NeurIPS), 2022

394

123

16 Jun 2022

ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

...

399

428

14 Jun 2022

Few-Shot Audio-Visual Learning of Environment AcousticsNeural Information Processing Systems (NeurIPS), 2022

311

08 Jun 2022

Towards Generalisable Audio Representations for Audio-Visual Navigation

Shunqi Mao

Chaoyi Zhang

Heng Wang

Weidong (Tom) Cai

197

01 Jun 2022

Learning Neural Acoustic FieldsNeural Information Processing Systems (NeurIPS), 2022

Antonio Torralba

Chuang Gan

AI4CE

428

124

04 Apr 2022

Sound Adversarial Audio-Visual NavigationInternational Conference on Learning Representations (ICLR), 2022

253

22 Feb 2022

Visual Acoustic MatchingComputer Vision and Pattern Recognition (CVPR), 2022

325

14 Feb 2022

Zero Experience Required: Plug & Play Modular Transfer Learning for Semantic Visual NavigationComputer Vision and Pattern Recognition (CVPR), 2022

Ziad Al-Halah

Santhosh Kumar Ramakrishnan

Kristen Grauman

VLM

412

113

05 Feb 2022

Active Audio-Visual Separation of Dynamic Sound SourcesEuropean Conference on Computer Vision (ECCV), 2022

Sagnik Majumder

Kristen Grauman

371

02 Feb 2022

PONI: Potential Functions for ObjectGoal Navigation with Interaction-free LearningComputer Vision and Pattern Recognition (CVPR), 2022

Santhosh Kumar Ramakrishnan

Devendra Singh Chaplot

Ziad Al-Halah

Jitendra Malik

Kristen Grauman

475

232

25 Jan 2022

Symmetry-aware Neural Architecture for Embodied Visual Navigation

Shuang Liu

Takayuki Okatani

369

17 Dec 2021

Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving SoundsIEEE Robotics and Automation Letters (RA-L), 2021

Abdelrahman Younes

Daniel Honerkamp

Tim Welschehold

Abhinav Valada

496

29 Nov 2021

Geometry-Aware Multi-Task Learning for Binaural Audio Generation from VideoBritish Machine Vision Conference (BMVC), 2021

Rishabh Garg

Ruohan Gao

Kristen Grauman

204

21 Nov 2021

Structure from Silence: Learning Scene Structure from Ambient SoundConference on Robot Learning (CoRL), 2021

Ziyang Chen

Xixi Hu

Andrew Owens

253

10 Nov 2021

Space-Time Memory Network for Sounding Object Localization in VideosBritish Machine Vision Conference (BMVC), 2021

Sizhe Li

Yapeng Tian

Chenliang Xu

142

10 Nov 2021

Audio-Visual Grounding Referring Expression for Robotic ManipulationIEEE International Conference on Robotics and Automation (ICRA), 2021

180

22 Sep 2021

Multi-Agent Embodied Visual Semantic Navigation with Scene Prior Knowledge

236

20 Sep 2021