Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments

29 November 2018

Papers citing "Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments"

50 / 77 papers shown

Title
ELA-ZSON: Efficient Layout-Aware Zero-Shot Object Navigation Agent with Hierarchical Planning Jiawei Hou Yuting Xiao Xiangyang Xue Taiping Zeng 39 0 0 09 May 2025
CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory Weichen Zhang Chen Gao Shiquan Yu Ruiying Peng Baining Zhao Qian Zhang Jinqiang Cui Xinlei Chen Y. Li LLMAG LM&Ro 40 0 0 08 May 2025
UAV-VLN: End-to-End Vision Language guided Navigation for UAVs Pranav Saxena Nishant Raghuvanshi Neena Goveas 69 0 0 30 Apr 2025
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard Yifei Dong Fengyi Wu Qi He Heng Li Minghan Li ... Yuxuan Zhou Jingdong Sun Qi Dai Zhi-Qi Cheng Alexander G. Hauptmann LM&Ro 38 0 0 18 Mar 2025
Referring to Any Person Qing Jiang Lin Wu Zhaoyang Zeng Tianhe Ren Yuda Xiong Yihao Chen Qin Liu Lei Zhang 122 0 0 11 Mar 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Mohit Bansal Parisa Kordjamshidi LRM 51 18 0 31 Dec 2024
Where am I? Cross-View Geo-localization with Natural Language Descriptions Junyan Ye Honglin Lin Leyan Ou Dairong Chen Zihao Wang Conghui He Weijia Li Weijia Li 76 0 0 22 Dec 2024
The Wallpaper is Ugly: Indoor Localization using Vision and Language Seth Pate Lawson L. S. Wong 31 0 0 04 Oct 2024
Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions Qingbin Zeng Qinglong Yang Shunan Dong Heming Du Liang Zheng Fengli Xu Yong Li LLMAG LM&Ro 31 8 0 08 Aug 2024
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments Taewoong Kim Cheolhong Min Byeonghwi Kim Jinyeon Kim Wonje Jeung Jonghyun Choi LM&Ro 34 4 0 26 Jul 2024
LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence Zhuoling Li Xiaogang Xu Zhenhua Xu Sernam Lim Hengshuang Zhao LM&Ro 40 2 0 27 May 2024
Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis Vishnu Sashank Dorbala Sanjoy Chowdhury Dinesh Manocha LM&Ro 25 0 0 18 Mar 2024
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning Bingqian Lin Yunshuang Nie Ziming Wei Jiaqi Chen Shikui Ma Jianhua Han Hang Xu Xiaojun Chang Xiaodan Liang LM&Ro LRM 60 20 0 12 Mar 2024
Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning Bingqian Lin Yanxin Long Yi Zhu Fengda Zhu Xiaodan Liang QiXiang Ye Liang Lin 27 5 0 09 Mar 2024
Policy Improvement using Language Feedback Models Victor Zhong Dipendra Kumar Misra Xingdi Yuan Marc-Alexandre Côté 16 9 0 12 Feb 2024
Which way is `right'?: Uncovering limitations of Vision-and-Language Navigation model Meera Hahn Amit Raj James M. Rehg 30 3 0 30 Nov 2023
Advances in Embodied Navigation Using Large Language Models: A Survey Jinzhou Lin Han Gao Xuxiang Feng Rongtao Xu Changwei Wang Man Zhang Li Guo Shibiao Xu LM&Ro LLMAG 63 9 0 01 Nov 2023
CityRefer: Geography-aware 3D Visual Grounding Dataset on City-scale Point Cloud Data Taiki Miyanishi Fumiya Kitamori Shuhei Kurita Jungdae Lee M. Kawanabe Nakamasa Inoue AI4TS 3DPC 17 4 0 28 Oct 2023
DepWiGNN: A Depth-wise Graph Neural Network for Multi-hop Spatial Reasoning in Text Shuaiyi Li Yang Deng Wai Lam 25 2 0 19 Oct 2023
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models Noriyuki Kojima Hadar Averbuch-Elor Yoav Artzi 21 2 0 06 Sep 2023
AerialVLN: Vision-and-Language Navigation for UAVs Shubo Liu Hongsheng Zhang Yuankai Qi Peifeng Wang Yaning Zhang Qi Wu CoGe 27 39 0 13 Aug 2023
HeGeL: A Novel Dataset for Geo-Location from Hebrew Text Tzuf Paz-Argaman Tal Bauman Itai Mondshine Itzhak Omer S. Dalyot Reut Tsarfaty 14 3 0 02 Jul 2023
Solving Dialogue Grounding Embodied Task in a Simulated Environment using Further Masked Language Modeling Weijie Zhang 27 0 0 21 Jun 2023
PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation Jialu Li Mohit Bansal DiffM 27 49 0 30 May 2023
TreePrompt: Learning to Compose Tree Prompts for Explainable Visual Grounding Chenchi Zhang Jun Xiao Lei Chen Jian Shao Long Chen VLM LRM 22 2 0 19 May 2023
Improving Vision-and-Language Navigation by Generating Future-View Image Semantics Jialu Li Mohit Bansal 21 34 0 11 Apr 2023
Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding Minyoung Hwang Jaeyeon Jeong Minsoo Kim Yoonseon Oh Songhwai Oh 17 19 0 07 Mar 2023
Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation Bingqian Lin Yi Zhu Xiaodan Liang Liang Lin Jian-zhuo Liu CoGe LM&Ro 29 3 0 13 Feb 2023
Benchmarking Spatial Relationships in Text-to-Image Generation Tejas Gokhale Hamid Palangi Besmira Nushi Vibhav Vineet Eric Horvitz Ece Kamar Chitta Baral Yezhou Yang EGVM 30 66 0 20 Dec 2022
Transfer Learning with Synthetic Corpora for Spatial Role Labeling and Reasoning Roshanak Mirzaee Parisa Kordjamshidi SyDa LRM 6 32 0 30 Oct 2022
DOROTHIE: Spoken Dialogue for Handling Unexpected Situations in Interactive Autonomous Driving Agents Ziqiao Ma B. VanDerPloeg Cristian-Paul Bara Yidong Huang Eui-In Kim Felix Gervits M. Marge J. Chai 50 7 0 22 Oct 2022
ULN: Towards Underspecified Vision-and-Language Navigation Weixi Feng Tsu-jui Fu Yujie Lu William Yang Wang 31 4 0 18 Oct 2022
AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments Sudipta Paul A. Roy-Chowdhury A. Cherian 25 23 0 14 Oct 2022
A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation Learning Aishwarya Kamath Peter Anderson Su Wang Jing Yu Koh Alexander Ku Austin Waters Yinfei Yang Jason Baldridge Zarana Parekh LM&Ro 15 45 0 06 Oct 2022
Iterative Vision-and-Language Navigation Jacob Krantz Shurjo Banerjee Wang Zhu Jason J. Corso Peter Anderson Stefan Lee Jesse Thomason LM&Ro 40 18 0 06 Oct 2022
Ground then Navigate: Language-guided Navigation in Dynamic Scenes Kanishk Jain Varun Chhangani Amogh Tiwari K. M. Krishna Vineet Gandhi LM&Ro 16 27 0 24 Sep 2022
A Priority Map for Vision-and-Language Navigation with Trajectory Plans and Feature-Location Cues Jason Armitage L. Impett Rico Sennrich 16 5 0 24 Jul 2022
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action Dhruv Shah B. Osinski Brian Ichter Sergey Levine LM&Ro 139 436 0 10 Jul 2022
Good Time to Ask: A Learning Framework for Asking for Help in Embodied Visual Navigation Jenny Zhang Samson Yu Jiafei Duan Cheston Tan 31 3 0 20 Jun 2022
FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation Zi-Yi Dou Nanyun Peng 17 22 0 09 Jun 2022
Learning to Execute Actions or Ask Clarification Questions Zhengxiang Shi Yue Feng Aldo Lipani LM&Ro 16 44 0 18 Apr 2022
EnvEdit: Environment Editing for Vision-and-Language Navigation Jialu Li Hao Tan Mohit Bansal 27 79 0 29 Mar 2022
Cross-modal Map Learning for Vision and Language Navigation G. Georgakis Karl Schmeckpeper Karan Wanchoo Soham Dan E. Miltsakaki Dan Roth Kostas Daniilidis 17 64 0 10 Mar 2022
CAISE: Conversational Agent for Image Search and Editing Hyounghun Kim Doo Soon Kim Seunghyun Yoon Franck Dernoncourt Trung Bui Mohit Bansal 11 6 0 24 Feb 2022
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid Ivan Laptev LM&Ro 28 137 0 23 Feb 2022
Curriculum Learning for Vision-and-Language Navigation Jiwen Zhang Zhongyu Wei Jianqing Fan J. Peng LM&Ro 26 20 0 14 Nov 2021
Are you doing what I say? On modalities alignment in ALFRED Ting-Rui Chiang Yi-Ting Yeh Ta-Chung Chi Yau-Shian Wang 22 1 0 12 Oct 2021
Language-Aligned Waypoint (LAW) Supervision for Vision-and-Language Navigation in Continuous Environments Sonia Raychaudhuri Saim Wani Shivansh Patel Unnat Jain Angel X. Chang LM&Ro 9 52 0 30 Sep 2021
Adversarial Reinforced Instruction Attacker for Robust Vision-Language Navigation Bingqian Lin Yi Zhu Yanxin Long Xiaodan Liang QiXiang Ye Liang Lin AAML 31 16 0 23 Jul 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 188 405 0 13 Jul 2021