Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art
Baseline

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

5 December 2019

Vishvak Murahari

Devi Parikh

Papers citing "Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline"

12 / 12 papers shown

Title
Which way is `right'?: Uncovering limitations of Vision-and-Language Navigation model Meera Hahn Amit Raj James M. Rehg 30 3 0 30 Nov 2023
Transformer-based Localization from Embodied Dialog with Large-scale Pre-training Meera Hahn James M. Rehg LM&Ro 26 4 0 10 Oct 2022
Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review Hao Wang Bin Guo Y. Zeng Yasan Ding Chen Qiu Ying Zhang Li Yao Zhiwen Yu 22 2 0 02 Jul 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 26 518 0 13 Jun 2022
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training Gi-Cheon Kang Sungdong Kim Jin-Hwa Kim Donghyun Kwak Byoung-Tak Zhang 13 10 0 25 May 2022
Vision-and-Language Pretrained Models: A Survey Siqu Long Feiqi Cao S. Han Haiqing Yang VLM 12 63 0 15 Apr 2022
Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting Chuhui Xue Wenqing Zhang Yu Hao Shijian Lu Philip H. S. Torr Song Bai VLM 27 31 0 08 Mar 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 79 208 0 18 Feb 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 382 4,010 0 28 Jan 2022
Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning Khanh Nguyen Hal Daumé LM&Ro EgoV 169 148 0 04 Sep 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 43 3,086 0 02 Dec 2016