v1v2 (latest)

Look, Listen, and Act: Towards Audio-Visual Embodied Navigation

IEEE International Conference on Robotics and Automation (ICRA), 2019

25 December 2019

Chuang Gan

Jiajun Wu

Papers citing "Look, Listen, and Act: Towards Audio-Visual Embodied Navigation"

50 / 77 papers shown

Embodied Navigation with Auxiliary Task of Action Description Prediction

Haru Kondoh

Asako Kanezaki

147

21 Oct 2025

Audio-Guided Visual Perception for Audio-Visual Navigation

13 Oct 2025

Iterative Residual Cross-Attention Mechanism: An Integrated Approach for Audio-Visual Navigation Tasks

30 Sep 2025

Dynamic Multi-Target Fusion for Efficient Audio-Visual Navigation

Yinfeng Yu

Hailong Zhang

Meiling Zhu

23 Sep 2025

Advancing Audio-Visual Navigation Through Multi-Agent Collaboration in 3D Environments

100

21 Sep 2025

The Sound of Simulation: Learning Multimodal Sim-to-Real Robot Policies with Generative Audio

Gopala Anumanchipalli

218

03 Jul 2025

Differentiable Room Acoustic Rendering with Multi-View Vision Priors

Derong Jin

Ruohan Gao

303

30 Apr 2025

Multimodal Perception for Goal-oriented Navigation: A Survey

I-Tak Ieong

Hao Tang

LM&Ro LRM

321

22 Apr 2025

Hearing Anywhere in Any EnvironmentComputer Vision and Pattern Recognition (CVPR), 2025

Ishwarya Ananthabhotla

266

14 Apr 2025

AI-Gadget Kit: Integrating Swarm User Interfaces with LLM-driven Agents for Rich Tabletop Game Applications

166

24 Jul 2024

NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields

Amandine Brunetto

Sascha Hornauer

Fabien Moutarde

450

28 May 2024

Audio-Visual Segmentation via Unlabeled Frame Exploitation

327

17 Mar 2024

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and AudioNeural Information Processing Systems (NeurIPS), 2023

145

01 Nov 2023

Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven NavigationNeural Information Processing Systems (NeurIPS), 2023

396

15 Sep 2023

Physics-Driven Diffusion Models for Impact Sound Synthesis from VideosComputer Vision and Pattern Recognition (CVPR), 2023

Kun Su

Kaizhi Qian

Eli Shlizerman

Antonio Torralba

Chuang Gan

VGen AI4CE

303

29 Mar 2023

Chat2Map: Efficient Scene Mapping from Multi-Ego ConversationsComputer Vision and Pattern Recognition (CVPR), 2023

283

04 Jan 2023

On Realization of Intelligent Decision-Making in the Real World: A Foundation Decision Model Perspective

Jingxiao Chen

211

24 Dec 2022

Knowledge-driven Scene Priors for Semantic Audio-Visual Embodied Navigation

Jean Oh

139

21 Dec 2022

A General Purpose Supervisory Signal for Embodied Agents

231

01 Dec 2022

Ask4Help: Learning to Leverage an Expert for Embodied TasksNeural Information Processing Systems (NeurIPS), 2022

220

18 Nov 2022

HUMANISE: Language-conditioned Human Motion Generation in 3D ScenesNeural Information Processing Systems (NeurIPS), 2022

216

167

18 Oct 2022

AVLEN: Audio-Visual-Language Embodied Navigation in 3D EnvironmentsNeural Information Processing Systems (NeurIPS), 2022

Sudipta Paul

Amit K. Roy-Chowdhury

A. Cherian

185

14 Oct 2022

Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language NavigationNeural Information Processing Systems (NeurIPS), 2022

Chuang Gan

211

14 Oct 2022

Learning Active Camera for Multi-Object NavigationNeural Information Processing Systems (NeurIPS), 2022

Chuang Gan

225

14 Oct 2022

Retrospectives on the Embodied AI Workshop

...

Jiajun Wu

361

13 Oct 2022

AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio Visual Event LocalizationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Tanvir Mahmud

Diana Marculescu

CLIP

199

11 Oct 2022

Pay Self-Attention to Audio-Visual NavigationBritish Machine Vision Conference (BMVC), 2022

307

04 Oct 2022

Anticipating the Unseen Discrepancy for Vision and Language Navigation

236

10 Sep 2022

Learning in Audio-visual Context: A Review, Analysis, and New Perspective

292

20 Aug 2022

Impact Makes a Sound and Sound Makes an Impact: Sound Guides Representations and ExplorationsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2022

Xufeng Zhao

C. Weber

Muhammad Burhan Hafez

S. Wermter

178

04 Aug 2022

Finding Fallen Objects Via Asynchronous Audio-Visual IntegrationComputer Vision and Pattern Recognition (CVPR), 2022

Chuang Gan

Antonio Torralba

267

07 Jul 2022

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic LearningNeural Information Processing Systems (NeurIPS), 2022

305

114

16 Jun 2022

ProcTHOR: Large-Scale Embodied AI Using Procedural Generation

...

318

367

14 Jun 2022

Few-Shot Audio-Visual Learning of Environment AcousticsNeural Information Processing Systems (NeurIPS), 2022

256

08 Jun 2022

Towards Generalisable Audio Representations for Audio-Visual Navigation

Shunqi Mao

Chaoyi Zhang

Heng Wang

Weidong (Tom) Cai

148

01 Jun 2022

Learning Neural Acoustic FieldsNeural Information Processing Systems (NeurIPS), 2022

Antonio Torralba

Chuang Gan

AI4CE

301

110

04 Apr 2022

Sound Adversarial Audio-Visual NavigationInternational Conference on Learning Representations (ICLR), 2022

176

22 Feb 2022

Visual Acoustic MatchingComputer Vision and Pattern Recognition (CVPR), 2022

300

14 Feb 2022

Zero Experience Required: Plug & Play Modular Transfer Learning for Semantic Visual NavigationComputer Vision and Pattern Recognition (CVPR), 2022

Ziad Al-Halah

Santhosh Kumar Ramakrishnan

Kristen Grauman

VLM

293

106

05 Feb 2022

Active Audio-Visual Separation of Dynamic Sound SourcesEuropean Conference on Computer Vision (ECCV), 2022

Sagnik Majumder

Kristen Grauman

312

02 Feb 2022

PONI: Potential Functions for ObjectGoal Navigation with Interaction-free LearningComputer Vision and Pattern Recognition (CVPR), 2022

Santhosh Kumar Ramakrishnan

Devendra Singh Chaplot

Ziad Al-Halah

Jitendra Malik

Kristen Grauman

411

207

25 Jan 2022

Symmetry-aware Neural Architecture for Embodied Visual Navigation

Shuang Liu

Takayuki Okatani

202

17 Dec 2021

Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving SoundsIEEE Robotics and Automation Letters (RA-L), 2021

Abdelrahman Younes

Daniel Honerkamp

Tim Welschehold

Abhinav Valada

437

29 Nov 2021

Geometry-Aware Multi-Task Learning for Binaural Audio Generation from VideoBritish Machine Vision Conference (BMVC), 2021

Rishabh Garg

Ruohan Gao

Kristen Grauman

172

21 Nov 2021

Structure from Silence: Learning Scene Structure from Ambient SoundConference on Robot Learning (CoRL), 2021

Ziyang Chen

Xixi Hu

Andrew Owens

161

10 Nov 2021

Space-Time Memory Network for Sounding Object Localization in VideosBritish Machine Vision Conference (BMVC), 2021

Sizhe Li

Yapeng Tian

Chenliang Xu

123

10 Nov 2021

Audio-Visual Grounding Referring Expression for Robotic ManipulationIEEE International Conference on Robotics and Automation (ICRA), 2021

160

22 Sep 2021

Multi-Agent Embodied Visual Semantic Navigation with Scene Prior Knowledge

215

20 Sep 2021

Communicative Learning with Natural Gestures for Embodied Navigation Agents with Human-in-the-SceneIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2021

Qi Wu

Cheng-Ju Wu

Yixin Zhu

Jungseock Joo

233

05 Aug 2021

Improving Multi-Modal Learning with Uni-Modal Teachers

Yue Wang

Hang Zhao

107

21 Jun 2021