CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double
Back-Translation for Vision-and-Language Navigation

CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation

1 March 2021

Hisashi Kawai

Papers citing "CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation"

4 / 4 papers shown

Title
Moment-based Adversarial Training for Embodied Language Comprehension Shintaro Ishikawa K. Sugiura LM&Ro 28 8 0 02 Apr 2022
On the Evaluation of Vision-and-Language Navigation Instructions Mingde Zhao Peter Anderson Vihan Jain Su Wang Alexander Ku Jason Baldridge Eugene Ie 231 50 0 26 Jan 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 240 495 0 07 Jun 2018