Transformer-based Localization from Embodied Dialog with Large-scale Pre-training

10 October 2022

Papers citing "Transformer-based Localization from Embodied Dialog with Large-scale Pre-training"

4 / 4 papers shown

Title
TopViewRS: Vision-Language Models as Top-View Spatial Reasoners Chengzu Li Caiqi Zhang Han Zhou Nigel Collier Anna Korhonen Ivan Vulić LRM 24 14 0 04 Jun 2024
DiaLoc: An Iterative Approach to Embodied Dialog Localization Chao Zhang Mohan Li Ignas Budvytis Stephan Liwicki 35 2 0 11 Mar 2024
Which way is `right'?: Uncovering limitations of Vision-and-Language Navigation model Meera Hahn Amit Raj James M. Rehg 30 3 0 30 Nov 2023
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019