Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

22 March 2022

Qi Wu

Papers citing "Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions"

29 / 29 papers shown

Title
SITE: towards Spatial Intelligence Thorough Evaluation W. Wang Reuben Tan Pengyue Zhu Jianwei Yang Zhengyuan Yang Lijuan Wang Andrey Kolobov Jianfeng Gao Boqing Gong 41 0 0 08 May 2025
Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets Guillermo Roque Erika Maquiling Jose Giovanni Tapia Lopez Ross Greer 35 0 0 06 May 2025
LGD: Leveraging Generative Descriptions for Zero-Shot Referring Image Segmentation Jiachen Li Qing Xie Xiaohan Yu Hongyun Wang Jinyu Xu Yongjian Liu ObjD 69 0 0 20 Apr 2025
Social-LLaVA: Enhancing Robot Navigation through Human-Language Reasoning in Social Spaces Amirreza Payandeh Daeun Song Mohammad Nazeri Jing Liang Praneel Mukherjee Amir Hossain Raj Yangzhe Kong Dinesh Manocha Xuesu Xiao LM&Ro LRM 70 5 0 17 Jan 2025
Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method Xinshuai Song Weixing Chen Y. Liu Weikai Chen Guanbin Li Liang Lin 117 3 0 12 Dec 2024
The Wallpaper is Ugly: Indoor Localization using Vision and Language Seth Pate Lawson L. S. Wong 16 0 0 04 Oct 2024
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction Suhwan Choi Yongjun Cho Minchan Kim Jaeyoon Jung Myunchul Joe ... Sungwoong Kim Sungjae Lee Hwiseong Park Jiwan Chung Youngjae Yu 36 0 0 02 Oct 2024
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation Quanting Xie So Yeon Min Tianyi Zhang Kedi Xu Aarav Bajaj Ruslan Salakhutdinov Matthew Johnson-Roberson Yonatan Bisk Matthew Johnson-Roberson Yonatan Bisk LM&Ro 48 6 0 26 Sep 2024
Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions Qingbin Zeng Qinglong Yang Shunan Dong Heming Du Liang Zheng Fengli Xu Yong Li LLMAG LM&Ro 24 8 0 08 Aug 2024
Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models Takayuki Nishimura Katsuyuki Kuyo Motonari Kambara Komei Sugiura DiffM 22 0 0 01 Jul 2024
Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation Francesco Taioli Stefano Rosa A. Castellini Lorenzo Natale Alessio Del Bue Alessandro Farinelli Marco Cristani Yiming Wang 33 5 0 15 Mar 2024
Demystifying Chains, Trees, and Graphs of Thoughts Maciej Besta Florim Memedi Zhenyu Zhang Robert Gerstenberger Guangyuan Piao ... Aleš Kubíček H. Niewiadomski Aidan O'Mahony Onur Mutlu Torsten Hoefler AI4CE LRM 50 25 0 25 Jan 2024
MAEA: Multimodal Attribution for Embodied AI Vidhi Jain Jayant Sravan Tamarapalli Sahiti Yerramilli Yonatan Bisk 19 0 0 25 Jul 2023
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models Gengze Zhou Yicong Hong Qi Wu ELM LM&Ro LLMAG LRM 23 138 0 26 May 2023
Yes, this Way! Learning to Ground Referring Expressions into Actions with Intra-episodic Feedback from Supportive Teachers P. Sadler Sherzod Hakimov David Schlangen 21 1 0 22 May 2023
Dialogue Games for Benchmarking Language Understanding: Motivation, Taxonomy, Strategy David Schlangen ELM 13 12 0 14 Apr 2023
Extending Phrase Grounding with Pronouns in Visual Dialogues Panzhong Lu Xin Zhang Meishan Zhang Min Zhang ObjD 19 4 0 23 Oct 2022
ULN: Towards Underspecified Vision-and-Language Navigation Weixi Feng Tsu-jui Fu Yujie Lu William Yang Wang 28 4 0 18 Oct 2022
Iterative Vision-and-Language Navigation Jacob Krantz Shurjo Banerjee Wang Zhu Jason J. Corso Peter Anderson Stefan Lee Jesse Thomason LM&Ro 40 18 0 06 Oct 2022
DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following Xiaofeng Gao Qiaozi Gao Ran Gong Kaixiang Lin Govind Thattai Gaurav Sukhatme LM&Ro 75 69 0 27 Feb 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 79 208 0 18 Feb 2022
A Framework for Learning to Request Rich and Contextually Useful Information from Humans Khanh Nguyen Yonatan Bisk Hal Daumé 28 15 0 14 Oct 2021
Waypoint Models for Instruction-guided Navigation in Continuous Environments Jacob Krantz Aaron Gokaslan Dhruv Batra Stefan Lee Oleksandr Maksymets LM&Ro 123 76 0 05 Oct 2021
TEACh: Task-driven Embodied Agents that Chat Aishwarya Padmakumar Jesse Thomason Ayush Shrivastava P. Lange Anjali Narayan-Chen Spandana Gella Robinson Piramithu Gökhan Tür Dilek Z. Hakkani-Tür LM&Ro 145 179 0 01 Oct 2021
On the Evaluation of Vision-and-Language Navigation Instructions Mingde Zhao Peter Anderson Vihan Jain Su Wang Alexander Ku Jason Baldridge Eugene Ie 231 50 0 26 Jan 2021
The RobotSlang Benchmark: Dialog-guided Robot Localization and Navigation Shurjo Banerjee Jesse Thomason Jason J. Corso LM&Ro 65 30 0 23 Oct 2020
Language and Visual Entity Relationship Graph for Agent Navigation Yicong Hong Cristian Rodriguez-Opazo Yuankai Qi Qi Wu Stephen Gould LM&Ro 160 131 0 19 Oct 2020
Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning Khanh Nguyen Hal Daumé LM&Ro EgoV 169 148 0 04 Sep 2019
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 237 495 0 07 Jun 2018