v1v2 (latest)

See, Hear, Explore: Curiosity via Audio-Visual Association

Neural Information Processing Systems (NeurIPS), 2020

7 July 2020

Papers citing "See, Hear, Explore: Curiosity via Audio-Visual Association"

45 / 45 papers shown

Embodied Navigation with Auxiliary Task of Action Description Prediction

Haru Kondoh

Asako Kanezaki

190

21 Oct 2025

Audio-Guided Visual Perception for Audio-Visual Navigation

157

13 Oct 2025

Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation

291

21 Sep 2025

Prosody as a Teaching Signal for Agent Learning: Exploratory Studies and Algorithmic ImplicationsInternational Conference on Multimodal Interaction (ICMI), 2024

180

31 Oct 2024

Hearing Touch: Audio-Visual Pretraining for Contact-Rich ManipulationIEEE International Conference on Robotics and Automation (ICRA), 2024

315

14 May 2024

Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model

279

06 Apr 2024

Hierarchical Auto-Organizing System for Open-Ended Multi-Agent Navigation

364

13 Mar 2024

See and Think: Embodied Agent in Virtual EnvironmentEuropean Conference on Computer Vision (ECCV), 2023

446

26 Nov 2023

Measuring Acoustics with Collaborative Multiple AgentsInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

397

09 Oct 2023

The Wizard of Curiosities: Enriching Dialogues with Fun FactsSIGDIAL Conferences (SIGDIAL), 2023

212

20 Sep 2023

Hyperbolic Audio-visual Zero-shot LearningIEEE International Conference on Computer Vision (ICCV), 2023

Mehrtash Harandi

293

24 Aug 2023

Omnidirectional Information Gathering for Knowledge Transfer-based Audio-Visual NavigationIEEE International Conference on Computer Vision (ICCV), 2023

341

20 Aug 2023

Never Explore Repeatedly in Multi-Agent Reinforcement Learning

Chenghao Li

Tonghan Wang

Chongjie Zhang

Qianchuan Zhao

218

19 Aug 2023

RealImpact: A Dataset of Impact Sound Fields for Real ObjectsComputer Vision and Pattern Recognition (CVPR), 2023

Jiajun Wu

252

16 Jun 2023

Sonicverse: A Multisensory Simulation Platform for Embodied Household Agents that See and HearIEEE International Conference on Robotics and Automation (ICRA), 2023

Silvio Savarese

Li Fei-Fei

Jiajun Wu

381

01 Jun 2023

Chat2Map: Efficient Scene Mapping from Multi-Ego ConversationsComputer Vision and Pattern Recognition (CVPR), 2023

384

04 Jan 2023

Learning Active Camera for Multi-Object NavigationNeural Information Processing Systems (NeurIPS), 2022

Chuang Gan

305

14 Oct 2022

Pay Self-Attention to Audio-Visual NavigationBritish Machine Vision Conference (BMVC), 2022

382

04 Oct 2022

That Sounds Right: Auditory Self-Supervision for Dynamic Robot ManipulationConference on Robot Learning (CoRL), 2022

Abitha Thankaraj

Lerrel Pinto

218

03 Oct 2022

Masked Imitation Learning: Discovering Environment-Invariant Modalities in Multimodal DemonstrationsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2022

Yuchen Cui

Dorsa Sadigh

300

16 Sep 2022

Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open QuestionsACM Computing Surveys (ACM CSUR), 2022

Paul Pu Liang

Amir Zadeh

Louis-Philippe Morency

368

218

07 Sep 2022

Self-Supervised Exploration via Temporal Inconsistency in Reinforcement LearningIEEE Transactions on Artificial Intelligence (IEEE TAI), 2022

Kele Xu

237

24 Aug 2022

Impact Makes a Sound and Sound Makes an Impact: Sound Guides Representations and ExplorationsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2022

Xufeng Zhao

C. Weber

Muhammad Burhan Hafez

S. Wermter

232

04 Aug 2022

Finding Fallen Objects Via Asynchronous Audio-Visual IntegrationComputer Vision and Pattern Recognition (CVPR), 2022

Chuang Gan

Antonio Torralba

360

07 Jul 2022

Beyond Visual Field of View: Perceiving 3D Environment with Echoes and Vision

Xiangjie Sui

Esa Rahtu

Hang Zhao

MDE

403

03 Jul 2022

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic LearningNeural Information Processing Systems (NeurIPS), 2022

404

124

16 Jun 2022

Few-Shot Audio-Visual Learning of Environment AcousticsNeural Information Processing Systems (NeurIPS), 2022

322

08 Jun 2022

Towards Generalisable Audio Representations for Audio-Visual Navigation

Shunqi Mao

Chaoyi Zhang

Heng Wang

Weidong (Tom) Cai

198

01 Jun 2022

Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual Imitation Learning

311

30 May 2022

Nuclear Norm Maximization Based Curiosity-Driven Learning

Kele Xu

662

21 May 2022

Exploration in Deep Reinforcement Learning: A SurveyInformation Fusion (Inf. Fusion), 2022

421

550

02 May 2022

Brainish: Formalizing A Multimodal Language for Intelligence and Consciousness

Paul Pu Liang

508

14 Apr 2022

Sound Adversarial Audio-Visual NavigationInternational Conference on Learning Representations (ICLR), 2022

261

22 Feb 2022

Visual Acoustic MatchingComputer Vision and Pattern Recognition (CVPR), 2022

341

14 Feb 2022

Toward Practical Monocular Indoor Depth EstimationComputer Vision and Pattern Recognition (CVPR), 2021

Cho-Ying Wu

Ulrich Neumann

317

04 Dec 2021

Geometry-Aware Multi-Task Learning for Binaural Audio Generation from VideoBritish Machine Vision Conference (BMVC), 2021

Rishabh Garg

Ruohan Gao

Kristen Grauman

213

21 Nov 2021

MultiBench: Multiscale Benchmarks for Multimodal Representation Learning

...

Peter Wu

Michelle A. Lee

Yuke Zhu

Ruslan Salakhutdinov

Louis-Philippe Morency

VLM

343

239

15 Jul 2021

Deep Learning for Embodied Vision Navigation: A Survey

Fengda Zhu

Yi Zhu

Vincent CS Lee

Xiaodan Liang

Xiaojun Chang

EgoV LM&Ro

603

07 Jul 2021

Learning Audio-Visual DereverberationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021

270

14 Jun 2021

Ask & Explore: Grounded Question Answering for Curiosity-Driven Exploration

180

24 Apr 2021

Touch-based Curiosity for Sparse-Reward Tasks

David Vazquez

201

01 Apr 2021

Audio-Visual Floorplan ReconstructionIEEE International Conference on Computer Vision (ICCV), 2020

393

31 Dec 2020

SEMI: Self-supervised Exploration via Multisensory IncongruityIEEE International Conference on Robotics and Automation (ICRA), 2020

Jianren Wang

Ziwen Zhuang

Hang Zhao

SSL

213

26 Sep 2020

Noisy Agents: Self-supervised Exploration by Predicting Auditory EventsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2020

Chuang Gan

Xiaoyu Chen

Phillip Isola

Antonio Torralba

J. Tenenbaum

198

27 Jul 2020

ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation

Chuang Gan

...

530

324

09 Jul 2020