Learning Vision-and-Language Navigation from YouTube Videos

Learning Vision-and-Language Navigation from YouTube Videos

22 July 2023

Kun-Li Channing Lin

Chuang Gan

Papers citing "Learning Vision-and-Language Navigation from YouTube Videos"

6 / 6 papers shown

Title
DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation Yinfeng Yu Dongsheng Yang 22 0 0 30 Apr 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Mohit Bansal Parisa Kordjamshidi LRM 51 18 0 31 Dec 2024
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations Jialu Li Hao Tan Mohit Bansal LM&Ro 56 12 0 05 Jul 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 388 4,110 0 28 Jan 2022
Language and Visual Entity Relationship Graph for Agent Navigation Yicong Hong Cristian Rodriguez-Opazo Yuankai Qi Qi Wu Stephen Gould LM&Ro 171 131 0 19 Oct 2020
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 246 495 0 07 Jun 2018