v1v2v3 (latest)

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

AAAI Conference on Artificial Intelligence (AAAI), 2019

16 August 2019

Papers citing "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training"

18 / 518 papers shown

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2020

Weituo Hao

Lawrence Carin

314

326

25 Feb 2020

UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Tianrui Li

375

417

15 Feb 2020

ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

374

276

22 Jan 2020

All-in-One Image-Grounded Conversational Agents

Jason Weston

147

28 Dec 2019

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art BaselineEuropean Conference on Computer Vision (ECCV), 2019

Devi Parikh

349

120

05 Dec 2019

12-in-1: Multi-Task Vision and Language Representation LearningComputer Vision and Pattern Recognition (CVPR), 2019

Devi Parikh

314

499

05 Dec 2019

Learning to Learn Words from Visual Scenes

Heng Ji

Carl Vondrick

186

25 Nov 2019

Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQAComputer Vision and Pattern Recognition (CVPR), 2019

Ronghang Hu

Amanpreet Singh

Trevor Darrell

Marcus Rohrbach

361

224

14 Nov 2019

Multimodal Intelligence: Representation Learning, Information Fusion, and ApplicationsIEEE Journal on Selected Topics in Signal Processing (JSTSP), 2019

Chao Zhang

Zichao Yang

Xiaodong He

Li Deng

HAI AI4TS

319

402

10 Nov 2019

Probing Contextualized Sentence Representations with Visual Awareness

Rui Wang

235

07 Nov 2019

TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines

300

31 Oct 2019

UNITER: UNiversal Image-TExt Representation LearningEuropean Conference on Computer Vision (ECCV), 2019

351

464

25 Sep 2019

Unified Vision-Language Pre-Training for Image Captioning and VQAAAAI Conference on Artificial Intelligence (AAAI), 2019

Lei Zhang

695

1,013

24 Sep 2019

VL-BERT: Pre-training of Generic Visual-Linguistic RepresentationsInternational Conference on Learning Representations (ICLR), 2019

Weijie Su

643

1,797

22 Aug 2019

Fusion of Detected Objects in Text for Visual Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2019

257

181

14 Aug 2019

CRIC: A VQA Dataset for Compositional Reasoning on Vision and CommonsenseIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2019

Ruiping Wang

305

08 Aug 2019

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language TasksNeural Information Processing Systems (NeurIPS), 2019

Devi Parikh

918

4,211

06 Aug 2019

Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and MethodsJournal of Artificial Intelligence Research (JAIR), 2019

407

142

22 Jul 2019