NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning

12 March 2024

Jianhua Han

Hang Xu

Xiaojun Chang

Xiaodan Liang

Papers citing "NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning"

18 / 18 papers shown

Title
SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models Nader Zantout Haochen Zhang Pujith Kachana J. Qiu Ji Zhang Wenshan Wang LM&Ro LRM 37 0 0 25 Apr 2025
Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation Junrong Yue Y. Zhang Chuan Qin Bo Li Xiaomin Lie Xinlei Yu Wenxin Zhang Zhendong Zhao 43 0 0 23 Apr 2025
FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks Siqi Zhang Yanyuan Qiao Qunbo Wang Longteng Guo Zhihua Wei J. Liu LM&Ro 66 0 0 18 Mar 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Mohit Bansal Parisa Kordjamshidi LRM 45 17 0 31 Dec 2024
A Survey on Data Synthesis and Augmentation for Large Language Models Ke Wang Jiahui Zhu Minjie Ren Z. Liu Shiwei Li ... Chenkai Zhang Xiaoyu Wu Qiqi Zhan Qingjie Liu Yunhong Wang SyDa 36 13 0 16 Oct 2024
Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning Yunpeng Gao Zhigang Wang Linglin Jing Dong Wang Xuelong Li Bin Zhao 25 7 0 11 Oct 2024
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects Zhaowei Wang Hongming Zhang Tianqing Fang Ye Tian Yue Yang Kaixin Ma Xiaoman Pan Yangqiu Song Dong Yu LM&Ro 25 0 0 03 Oct 2024
Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation Zehao Wang Minye Wu Yixin Cao Yubo Ma Meiqi Chen Tinne Tuytelaars 20 1 0 25 Sep 2024
Towards Child-Inclusive Clinical Video Understanding for Autism Spectrum Disorder Aditya Kommineni Digbalay Bose Tiantian Feng So Hyun Kim Helen Tager-Flusberg Somer Bishop C. Lord Sudarsana Reddy Kadiri Shrikanth Narayanan 30 1 0 20 Sep 2024
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models Gengze Zhou Yicong Hong Zun Wang Xin Eric Wang Qi Wu LM&Ro 37 15 0 17 Jul 2024
Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation Jiaqi Chen Bingqian Lin Xinmin Liu Lin Ma Xiaodan Liang Kwan-Yee Kenneth Wong LM&Ro 39 7 0 08 Jul 2024
MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation Jiaqi Chen Bingqian Lin Ran Xu Zhenhua Chai Xiaodan Liang Kwan-Yee Kenneth Wong LM&Ro LLMAG 19 25 0 14 Jan 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action Dhruv Shah B. Osinski Brian Ichter Sergey Levine LM&Ro 136 430 0 10 Jul 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 380 4,010 0 28 Jan 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 237 444 0 07 Jun 2018