ViNT: A Foundation Model for Visual Navigation

26 June 2023

Papers citing "ViNT: A Foundation Model for Visual Navigation"

39 / 39 papers shown

Title
Let Humanoids Hike! Integrative Skill Development on Complex Trails Kwan-Yee Lin Stella X.Yu 29 0 0 09 May 2025
Learning to Drive Anywhere with Model-Based Reannotation Noriaki Hirose Lydia Ignatova Kyle Stachowicz Catherine Glossop Sergey Levine Dhruv Shah 24 0 0 08 May 2025
LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs Xinyuan Zhang Yonglin Tian Fei Lin Yue Liu Jing Ma Kornélia Sára Szatmáry Fei Wang 45 0 0 06 May 2025
Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge Models Hao Ren Yiming Zeng Zetong Bi Zhaoliang Wan Junlong Huang Hui Cheng 122 1 0 14 Apr 2025
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments Dongping Li Tielong Cai Tianci Tang Wenhao Chai Katherine Rose Driggs-Campbell Gaoang Wang LM&Ro 61 0 0 11 Mar 2025
GSplatVNM: Point-of-View Synthesis for Visual Navigation Models Using Gaussian Splatting Kohei Honda Takeshi Ishita Yasuhiro Yoshimura Ryo Yonetani 3DGS 47 0 0 07 Mar 2025
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction Huang Huang Fangchen Liu Letian Fu Tingfan Wu Mustafa Mukadam Jitendra Malik Ken Goldberg Pieter Abbeel LM&Ro VLM 82 5 0 05 Mar 2025
Efficient Evaluation of Multi-Task Robot Policies With Active Experiment Selection Abrar Anwar Rohan Gupta Zain Merchant Sayan Ghosh Willie Neiswanger Jesse Thomason OffRL 67 1 0 14 Feb 2025
Dream to Fly: Model-Based Reinforcement Learning for Vision-Based Drone Flight Angel Romero Ashwin Shenai Ismail Geles Elie Aljalbout Davide Scaramuzza 74 1 0 24 Jan 2025
iKap: Kinematics-aware Planning with Imperative Learning Qihang Li Zhuoqun Chen Haoze Zheng Haonan He Shaoshu Su Junyi Geng Chen Wang Chen Wang 95 4 0 12 Dec 2024
Navigation World Models Amir Bar G. Zhou Danny Tran Trevor Darrell Yann LeCun VGen EgoV 82 14 0 04 Dec 2024
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos Xinhao Liu J. Li Yichen Jiang Niranjan Sujay Z. Yang Juexiao Zhang John Abanes Jing Zhang Chen Feng 112 1 0 26 Nov 2024
MotionGlot: A Multi-Embodied Motion Generation Model Sudarshan Harithas Srinath Sridhar 73 1 0 22 Oct 2024
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction Suhwan Choi Yongjun Cho Minchan Kim Jaeyoon Jung Myunchul Joe ... Sungwoong Kim Sungjae Lee Hwiseong Park Jiwan Chung Youngjae Yu 40 0 0 02 Oct 2024
Embodied Visuomotor Representation Levi Burner Cornelia Fermuller Yiannis Aloimonos 28 0 0 30 Sep 2024
AnyCar to Anywhere: Learning Universal Dynamics Model for Agile and Adaptive Mobility Wenli Xiao Haoru Xue Tony Tao Dvij Kalaria John M. Dolan Guanya Shi 29 5 0 24 Sep 2024
NavRL: Learning Safe Flight in Dynamic Environments Zhefan Xu Xinming Han Haoyu Shen Hanyu Jin Kenji Shimada 35 4 0 24 Sep 2024
GND: Global Navigation Dataset with Multi-Modal Perception and Multi-Category Traversability in Outdoor Campus Environments Jing Liang Dibyendu Das Daeun Song Md Nahid Hasan Shuvo Mohammad Durrani Karthik Taranath Ivan Penskiy Dinesh Manocha Xuesu Xiao 3DV 65 1 0 21 Sep 2024
NEUSIS: A Compositional Neuro-Symbolic Framework for Autonomous Perception, Reasoning, and Planning in Complex UAV Search Missions Zhixi Cai Cristian Rojas Cardenas Kevin Leo Chenyuan Zhang Kal Backman ... Yuan-Fang Li Mor Vered Peter James Stuckey M. G. D. L. Banda Hamid Rezatofighi 31 7 0 16 Sep 2024
VL-TGS: Trajectory Generation and Selection using Vision Language Models in Mapless Outdoor Environments Daeun Song Jing Liang Xuesu Xiao Dinesh Manocha 48 4 0 05 Aug 2024
GET-Zero: Graph Embodiment Transformer for Zero-shot Embodiment Generalization Austin Patel Shuran Song LM&Ro 29 3 0 20 Jul 2024
BAKU: An Efficient Transformer for Multi-Task Policy Learning Siddhant Haldar Zhuoran Peng Lerrel Pinto OffRL 36 26 0 11 Jun 2024
Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability Shenyuan Gao Jiazhi Yang Li Chen Kashyap Chitta Yihang Qiu Andreas Geiger Jun Zhang Hongyang Li 65 75 0 27 May 2024
DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset Alexander Khazatsky Karl Pertsch Suraj Nair Ashwin Balakrishna Sudeep Dasari ... Thomas Kollar Sergey Levine Chelsea Finn Sergey Levine Chelsea Finn 44 176 0 19 Mar 2024
Embodied Understanding of Driving Scenarios Yunsong Zhou Linyan Huang Qingwen Bu Jia Zeng Tianyu Li Hang Qiu Hongzi Zhu Minyi Guo Yu Qiao Hongyang Li LM&Ro 57 31 0 07 Mar 2024
Adaptive Mobile Manipulation for Articulated Objects In the Open World Haoyu Xiong Russell Mendonca Kenneth Shaw Deepak Pathak 32 38 0 25 Jan 2024
Learning to navigate efficiently and precisely in real environments G. Bono Hervé Poirier L. Antsfeld G. Monaci Boris Chidlovskii Christian Wolf 21 2 0 25 Jan 2024
QUAR-VLA: Vision-Language-Action Model for Quadruped Robots Pengxiang Ding Han Zhao Wenxuan Song Zhitao Wang Zhenyu Wei Shangke Lyu Ningxi Yang Donglin Wang 32 19 0 22 Dec 2023
Multi-Stage Cable Routing through Hierarchical Imitation Learning Jianlan Luo Charles Xu Xinyang Geng Gilbert Feng Kuan Fang L. Tan S. Schaal Sergey Levine 33 52 0 18 Jul 2023
IndoorSim-to-OutdoorReal: Learning to Navigate Outdoors without any Outdoor Experience Joanne Truong April Zitkovich Sonia Chernova Dhruv Batra Tingnan Zhang Jie Tan Wenhao Yu LM&Ro 18 13 0 01 May 2023
Toward Wheeled Mobility on Vertically Challenging Terrain: Platforms, Datasets, and Algorithms A. Datar Chenhui Pan Mohammad Nazeri Xuesu Xiao 13 38 0 02 Mar 2023
Real-World Robot Learning with Masked Visual Pre-training Ilija Radosavovic Tete Xiao Stephen James Pieter Abbeel Jitendra Malik Trevor Darrell SSL 156 239 0 06 Oct 2022
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action Dhruv Shah B. Osinski Brian Ichter Sergey Levine LM&Ro 147 436 0 10 Jul 2022
ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints Dhruv Shah Sergey Levine 132 66 0 23 Feb 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 305 7,434 0 11 Nov 2021
Palette: Image-to-Image Diffusion Models Chitwan Saharia William Chan Huiwen Chang Chris A. Lee Jonathan Ho Tim Salimans David J. Fleet Mohammad Norouzi DiffM VLM 342 1,588 0 10 Nov 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 224 1,018 0 13 Oct 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 280 3,844 0 18 Apr 2021
Scaling Local Control to Large-Scale Topological Navigation Xiangyun Meng Nathan D. Ratliff Yu Xiang D. Fox 95 61 0 26 Sep 2019