Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill

19 September 2023

Wenzhe Cai

Papers citing "Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill"

36 / 36 papers shown

Title
ELA-ZSON: Efficient Layout-Aware Zero-Shot Object Navigation Agent with Hierarchical Planning Jiawei Hou Yuting Xiao Xiangyang Xue Taiping Zeng 23 0 0 09 May 2025
Multimodal Perception for Goal-oriented Navigation: A Survey I-Tak Ieong Hao Tang LM&Ro LRM 21 0 0 22 Apr 2025
CL-CoTNav: Closed-Loop Hierarchical Chain-of-Thought for Zero-Shot Object-Goal Navigation with Vision-Language Models Yuxin Cai Xiangkun He Maonan Wang Hongliang Guo W. Yau Chen Lv LM&Ro LRM 29 0 0 11 Apr 2025
Dexterous Manipulation through Imitation Learning: A Survey Shan An Ziyu Meng Chao Tang Y. Zhou Tengyu Liu ... Yao Mu Ran Song Wei Zhang Zeng-Guang Hou H. Zhang 40 0 0 04 Apr 2025
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation Hang Yin Xiuwei Xu Lingqing Zhao Z. Wang Jie Zhou Jiwen Lu 54 2 0 13 Mar 2025
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments Dongping Li Tielong Cai Tianci Tang Wenhao Chai Katherine Rose Driggs-Campbell Gaoang Wang LM&Ro 56 0 0 11 Mar 2025
WMNav: Integrating Vision-Language Models into World Models for Object Goal Navigation Dujun Nie Xianda Guo Yiqun Duan Ruijun Zhang Long Chen LM&Ro 113 1 0 04 Mar 2025
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation Linqing Zhong Chen Gao Zihan Ding Yue Liao Si Liu Shifeng Zhang Xu Zhou Si Liu LRM 80 3 0 25 Nov 2024
Exploring the Reliability of Foundation Model-Based Frontier Selection in Zero-Shot Object Goal Navigation Shuaihang Yuan Halil Utku Unlu Hao Huang Congcong Wen Anthony Tzes Yi Fang 21 1 0 28 Oct 2024
ImagineNav: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination Xinxin Zhao Wenzhe Cai Likun Tang Teng Wang LM&Ro 24 2 0 13 Oct 2024
OrionNav: Online Planning for Robot Autonomy with Context-Aware LLM and Open-Vocabulary Semantic Scene Graphs Venkata Naren Devarakonda Raktim Gautam Goswami Ali Umut Kaypak Naman Patel Rooholla Khorrambakht P. Krishnamurthy Farshad Khorrami LM&Ro 30 3 0 08 Oct 2024
MO-DDN: A Coarse-to-Fine Attribute-based Exploration Agent for Multi-object Demand-driven Navigation Hongcheng Wang Peiqi Liu Wenzhe Cai Mingdong Wu Zhengyu Qian Hao Dong 11 0 0 04 Oct 2024
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects Zhaowei Wang Hongming Zhang Tianqing Fang Ye Tian Yue Yang Kaixin Ma Xiaoman Pan Yangqiu Song Dong Yu LM&Ro 33 3 0 03 Oct 2024
Find Everything: A General Vision Language Model Approach to Multi-Object Search Daniel Choi Angus Fung Haitong Wang Aaron Hao Tan 46 3 0 01 Oct 2024
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models Qiaojun Yu Siyuan Huang Xibin Yuan Zhengkai Jiang Ce Hao ... Junbo Wang Liu Liu Hongsheng Li Peng Gao Cewu Lu 57 3 0 30 Sep 2024
Autonomous Exploration and Semantic Updating of Large-Scale Indoor Environments with Mobile Robots Sai Haneesh Allu Itay Kadosh Tyler Summers Yu Xiang 19 0 0 23 Sep 2024
Navi2Gaze: Leveraging Foundation Models for Navigation and Target Gazing Jun Zhu Zihao Du Haotian Xu Fengbo Lan Zilong Zheng Bo Ma Shengjie Wang Tao Zhang 18 2 0 12 Jul 2024
OVExp: Open Vocabulary Exploration for Object-Oriented Navigation Meng Wei Tai Wang Yilun Chen Hanqing Wang Jiangmiao Pang Xihui Liu VLM 34 3 0 12 Jul 2024
Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs Hao-Tien Lewis Chiang Zhuo Xu Zipeng Fu M. Jacob Tingnan Zhang ... Carolina Parada Chelsea Finn Peng Xu Sergey Levine Jie Tan LM&Ro 22 19 0 10 Jul 2024
Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation Jiaqi Chen Bingqian Lin Xinmin Liu Lin Ma Xiaodan Liang Kwan-Yee Kenneth Wong LM&Ro 41 7 0 08 Jul 2024
Open Scene Graphs for Open World Object-Goal Navigation Joel Loo Zhanxin Wu David Hsu LM&Ro 18 3 0 02 Jul 2024
CAMON: Cooperative Agents for Multi-Object Navigation with LLM-based Conversations Pengying Wu Yao Mu Kangjie Zhou Ji Ma Junting Chen Chang Liu LLMAG LM&Ro 24 2 0 30 Jun 2024
InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment Yuxing Long Wenzhe Cai Hongcheng Wang Guanqi Zhan Hao Dong 22 20 0 07 Jun 2024
MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains Zhaohuan Zhan Lisha Yu Sijie Yu Guang Tan LLMAG LM&Ro 42 10 0 17 May 2024
TriHelper: Zero-Shot Object Navigation with Dynamic Assistance Lingfeng Zhang Qiang Zhang Hao Wang Erjia Xiao Zixuan Jiang Honglei Chen Renjing Xu 14 8 0 22 Mar 2024
Prioritized Semantic Learning for Zero-shot Instance Navigation Xander Sun Louis Lau Hoyard Zhi Ronghe Qiu Junwei Liang 22 8 0 18 Mar 2024
ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models Siyuan Huang Iaroslav Ponomarenko Zhengkai Jiang Xiaoqi Li Xiaobin Hu Peng Gao Hongsheng Li Hao Dong LM&Ro 32 16 0 17 Mar 2024
RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis Yao Mu Junting Chen Qinglong Zhang Shoufa Chen Qiaojun Yu ... Wenhai Wang Jifeng Dai Yu Qiao Mingyu Ding Ping Luo 37 20 0 25 Feb 2024
OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models Yuxuan Kuang Hai Lin Meng Jiang LM&Ro 20 25 0 16 Feb 2024
An Interactive Agent Foundation Model Zane Durante Bidipta Sarkar Ran Gong Rohan Taori Yusuke Noda ... Katsushi Ikeuchi Fei-Fei Li Jianfeng Gao Naoki Wake Qiuyuan Huang LM&Ro AI4CE LLMAG 80 14 0 08 Feb 2024
VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model Pengying Wu Yao Mu Bingxian Wu Yi Hou Ji Ma Shanghang Zhang Chang-rui Liu LM&Ro 17 23 0 05 Jan 2024
L3MVN: Leveraging Large Language Models for Visual Target Navigation Bangguo Yu H. Kasaei M. Cao LM&Ro 45 83 0 11 Apr 2023
Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard LM&Ro 140 337 0 11 Oct 2022
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models Ishika Singh Valts Blukis Arsalan Mousavian Ankit Goyal Danfei Xu Jonathan Tremblay D. Fox Jesse Thomason Animesh Garg LM&Ro LLMAG 107 616 0 22 Sep 2022
Open-vocabulary Queryable Scene Representations for Real World Planning Boyuan Chen F. Xia Brian Ichter Kanishka Rao K. Gopalakrishnan Michael S. Ryoo Austin Stone Daniel Kappler LM&Ro 138 179 0 20 Sep 2022
ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings Arjun Majumdar Gunjan Aggarwal Bhavika Devnani Judy Hoffman Dhruv Batra LM&Ro 141 148 0 24 Jun 2022