Structure-Encoding Auxiliary Tasks for Improved Visual Representation in Vision-and-Language Navigation

20 November 2022

Papers citing "Structure-Encoding Auxiliary Tasks for Improved Visual Representation in Vision-and-Language Navigation"

5 / 5 papers shown

Title
Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining Weizhen He Yunfeng Yan Shixiang Tang Yiheng Deng Yangyang Zhong Pengxin Luo Donglian Qi VLM 94 1 0 29 Apr 2025
Language and Visual Entity Relationship Graph for Agent Navigation Yicong Hong Cristian Rodriguez-Opazo Yuankai Qi Qi Wu Stephen Gould LM&Ro 173 132 0 19 Oct 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 267 3,369 0 09 Mar 2020
Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried Ronghang Hu Volkan Cirik Anna Rohrbach Jacob Andreas Louis-Philippe Morency Taylor Berg-Kirkpatrick Kate Saenko Dan Klein Trevor Darrell LM&Ro LRM 257 496 0 07 Jun 2018
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 296 39,194 0 01 Sep 2014