ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Neural Information Processing Systems (NeurIPS), 2019

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,232 papers shown

Polysemy Deciphering Network for Robust Human-Object Interaction DetectionInternational Journal of Computer Vision (IJCV), 2020

344

07 Aug 2020

ConvBERT: Improving BERT with Span-based Dynamic ConvolutionNeural Information Processing Systems (NeurIPS), 2020

Weihao Yu

347

199

06 Aug 2020

Word meaning in minds and machines

Brenden M. Lake

G. Murphy

NAI

369

140

04 Aug 2020

Learning Visual Representations with Caption Annotations

Mert Bulent Sariyildiz

J. Perez

Diane Larlus

VLM SSL

254

171

04 Aug 2020

HAMLET: A Hierarchical Multimodal Attention-based Human Activity Recognition Algorithm

Md. Mofijul Islam

Tariq Iqbal

158

03 Aug 2020

SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation SpaceWorkshop on Document-grounded Dialogue and Conversational Question Answering (DialDoc), 2020

Liu Yang

VLM

176

02 Aug 2020

Neural Language Generation: Formulation, Methods, and Evaluation

Cristina Garbacea

Qiaozhu Mei

354

31 Jul 2020

Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image RetrievalBritish Machine Vision Conference (BMVC), 2020

307

29 Jul 2020

Pre-training for Video Captioning Challenge 2020 Summary

Yingwei Pan

Jun Xu

Yehao Li

Ting Yao

Tao Mei

27 Jul 2020

Contrastive Visual-Linguistic Pretraining

171

26 Jul 2020

Spatially Aware Multimodal Transformers for TextVQAEuropean Conference on Computer Vision (ECCV), 2020

Devi Parikh

205

23 Jul 2020

Analogical Reasoning for Visually Grounded Language Acquisition

Carl Vondrick

136

22 Jul 2020

Referring Expression Comprehension: A Survey of Methods and DatasetsIEEE transactions on multimedia (TMM), 2020

Yanyuan Qiao

Chaorui Deng

Qi Wu

ObjD

338

118

19 Jul 2020

Preserving Semantic Neighborhoods for Robust Cross-modal RetrievalEuropean Conference on Computer Vision (ECCV), 2020

Christopher Thomas

Adriana Kovashka

259

16 Jul 2020

Reducing Language Biases in Visual Question Answering with Visually-Grounded Question EncoderEuropean Conference on Computer Vision (ECCV), 2020

K. Gouthaman

Anurag Mittal

372

13 Jul 2020

Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training

Yingwei Pan

Tao Mei

210

05 Jul 2020

Multimodal Text Style Transfer for Outdoor Vision-and-Language Navigation

353

01 Jul 2020

Modality-Agnostic Attention Fusion for visual search with text feedback

259

30 Jun 2020

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

418

400

30 Jun 2020

Ontology-guided Semantic Composition for Zero-Shot Learning

Huajun Chen

202

30 Jun 2020

$Improving VQA and its Explanations \\ by Comparing Competing Explanations$

Improving VQA and its Explanations \\ by Comparing Competing Explanations

Jialin Wu

Liyan Chen

Raymond J. Mooney

FAtt AAML

210

28 Jun 2020

Video-Grounded Dialogues with Pretrained Generation Language Models

Hung Le

Guosheng Lin

218

27 Jun 2020

Unsupervised Video Decomposition using Spatio-temporal Iterative Inference

277

25 Jun 2020

Comprehensive Information Integration Modeling Framework for Video TitlingKnowledge Discovery and Data Mining (KDD), 2020

Zhou Zhao

Jingren Zhou

Hongxia Yang

Leilei Gan

171

24 Jun 2020

Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning"

332

20 Jun 2020

Overcoming Statistical Shortcuts for Open-ended Visual Counting

207

17 Jun 2020

Contrastive Learning for Weakly Supervised Phrase Grounding

306

157

17 Jun 2020

Learning Visual Commonsense for Robust Scene Graph Generation

400

312

17 Jun 2020

VirTex: Learning Visual Representations from Textual AnnotationsComputer Vision and Pattern Recognition (CVPR), 2020

Karan Desai

Justin Johnson

SSL VLM

504

467

11 Jun 2020

Large-Scale Adversarial Training for Vision-and-Language Representation LearningNeural Information Processing Systems (NeurIPS), 2020

363

537

11 Jun 2020

M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training

285

04 Jun 2020

TRIE: End-to-End Text Reading and Information Extraction for Document UnderstandingACM Multimedia (ACM MM), 2020

254

110

27 May 2020

FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

Peng Li

212

147

20 May 2020

Human Instruction-Following with Deep Reinforcement Learning via Transfer-Learning from Text

221

19 May 2020

IMoJIE: Iterative Memory-Based Joint Open Information Extraction

175

17 May 2020

Adaptive Transformers for Learning Multimodal Representations

Prajjwal Bhargava

112

15 May 2020

Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

268

139

15 May 2020

Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond

Zhuosheng Zhang

Hai Zhao

Rui Wang

216

13 May 2020

Cross-Modality Relevance for Reasoning on Language and Vision

134

12 May 2020

The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes

Douwe Kiela

Amanpreet Singh

332

763

10 May 2020

History for Visual Dialog: Do we really need it?

133

08 May 2020

MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis

Devamanyu Hazarika

Roger Zimmermann

Soujanya Poria

361

970

07 May 2020

Cross-media Structured Common Space for Multimedia Event ExtractionAnnual Meeting of the Association for Computational Linguistics (ACL), 2020

Heng Ji

186

116

05 May 2020

Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring ExpressionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2020

Siva Reddy

163

04 May 2020

Visually Grounded Continual Learning of Compositional Phrases

Xiang Ren

255

02 May 2020

Probing Contextual Language Models for Common Ground with Visual Representations

410

01 May 2020

Visuo-Linguistic Question Answering (VLQA) Challenge

Shailaja Keyur Sampat

Yezhou Yang

Chitta Baral

CoGe

138

01 May 2020

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-trainingConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

706

539

01 May 2020

Crisscrossed Captions: Extended Intramodal and Intermodal Semantic Similarity Judgments for MS-COCOConference of the European Chapter of the Association for Computational Linguistics (EACL), 2020

275

30 Apr 2020

Improving Vision-and-Language Navigation with Image-Text Pairs from the WebEuropean Conference on Computer Vision (ECCV), 2020

Devi Parikh

445

261

30 Apr 2020