ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Neural Information Processing Systems (NeurIPS), 2019

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,232 papers shown

Detecting Hate Speech in Memes Using Multimodal Deep Learning Approaches: Prize-winning solution to Hateful Memes Challenge

Riza Velioglu

J. Rose

VLM

121

103

23 Dec 2020

Training data-efficient image transformers & distillation through attentionInternational Conference on Machine Learning (ICML), 2020

Alexandre Sablayrolles

Edouard Grave

ViT

649

8,277

23 Dec 2020

A Multimodal Framework for the Detection of Hateful Memes

285

23 Dec 2020

Seeing past words: Testing the cross-modal capabilities of pretrained V&L models on counting tasks

333

22 Dec 2020

ActionBert: Leveraging User Actions for Semantic Understanding of User InterfacesAAAI Conference on Artificial Intelligence (AAAI), 2020

Blaise Agüera y Arcas

261

22 Dec 2020

Object-Centric Diagnosis of Visual Reasoning

Jianwei Yang

Jiayuan Mao

Jiajun Wu

Devi Parikh

David D. Cox

J. Tenenbaum

Chuang Gan

OCL

193

21 Dec 2020

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQAComputer Vision and Pattern Recognition (CVPR), 2020

Devi Parikh

272

225

20 Dec 2020

Transformer Interpretability Beyond Attention VisualizationComputer Vision and Pattern Recognition (CVPR), 2020

Hila Chefer

Shir Gur

Lior Wolf

421

864

17 Dec 2020

MELINDA: A Multimodal Dataset for Biomedical Experiment Method ClassificationAAAI Conference on Artificial Intelligence (AAAI), 2020

114

16 Dec 2020

ReINTEL: A Multimodal Data Challenge for Responsible Information Identification on Social Network Sites

...

Huyen Thi Minh Nguyen

Hoang D. Nguyen

175

16 Dec 2020

A Closer Look at the Robustness of Vision-and-Language Pre-trained Models

263

15 Dec 2020

Attention over learned object embeddings enables complex visual reasoningNeural Information Processing Systems (NeurIPS), 2020

366

15 Dec 2020

Vilio: State-of-the-art Visio-Linguistic Models applied to Hateful Memes

Niklas Muennighoff

155

14 Dec 2020

KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual Commonsense ReasoningKnowledge-Based Systems (KBS), 2020

Dandan Song

256

13 Dec 2020

MiniVLM: A Smaller and Faster Vision-Language Model

Xiaowei Hu

Zicheng Liu

235

13 Dec 2020

Look Before you Speak: Visually Contextualized UtterancesComputer Vision and Pattern Recognition (CVPR), 2020

Paul Hongsuck Seo

Arsha Nagrani

Cordelia Schmid

312

10 Dec 2020

Topological Planning with Transformers for Vision-and-Language NavigationComputer Vision and Pattern Recognition (CVPR), 2020

Kevin Chen

Junshen K. Chen

Jo Chuang

Hao-Tien Lewis Chiang

Silvio Savarese

LM&Ro

218

137

09 Dec 2020

Hateful Memes Detection via Complementary Visual and Linguistic Networks

104

09 Dec 2020

TAP: Text-Aware Pre-training for Text-VQA and Text-Caption

Lei Zhang

266

158

08 Dec 2020

Parameter Efficient Multimodal Transformers for Video Representation Learning

275

08 Dec 2020

Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation

Yejin Choi

208

08 Dec 2020

WeaQA: Weak Supervision via Captions for Visual Question AnsweringFindings (Findings), 2020

Pratyay Banerjee

Tejas Gokhale

Yezhou Yang

Chitta Baral

335

04 Dec 2020

Understanding Guided Image Captioning Performance across DomainsConference on Computational Natural Language Learning (CoNLL), 2020

371

04 Dec 2020

Classification of Multimodal Hate Speech -- The Winning Solution of Hateful Memes Challenge

Xiayu Zhong

150

02 Dec 2020

Open-Ended Multi-Modal Relational Reasoning for Video Question AnsweringIEEE International Symposium on Robot and Human Interactive Communication (RO-MAN), 2020

469

01 Dec 2020

Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTsTransactions of the Association for Computational Linguistics (TACL), 2020

251

125

30 Nov 2020

Point and Ask: Incorporating Pointing into Visual Question Answering

385

27 Nov 2020

Learning from Lexical Perturbations for Consistent Visual Question Answering

Heng Ji

153

26 Nov 2020

A Recurrent Vision-and-Language BERT for NavigationComputer Vision and Pattern Recognition (CVPR), 2020

Yicong Hong

Qi Wu

Yuankai Qi

Cristian Rodriguez-Opazo

Stephen Gould

LM&Ro

326

382

26 Nov 2020

Multimodal Learning for Hateful Memes Detection

Yi Zhou

Zhenhao Chen

312

25 Nov 2020

Open-Vocabulary Object Detection Using CaptionsComputer Vision and Pattern Recognition (CVPR), 2020

Derek Hao Hu

433

538

20 Nov 2020

EasyTransfer -- A Simple and Scalable Deep Transfer Learning Platform for NLP ApplicationsInternational Conference on Information and Knowledge Management (CIKM), 2020

Minghui Qiu

Peng Li

Chengyu Wang

...

Yaliang Li

362

18 Nov 2020

A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus

Joonseok Lee

204

18 Nov 2020

Generating Natural Questions from Images for Multimodal AssistantsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

184

17 Nov 2020

Improving Calibration in Deep Metric Learning With Cross-Example Softmax

Andreas Veit

Kimberly Wilber

17 Nov 2020

iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering

Vasu Sharma

Gurneet Arora

Navpreet Kaloty

201

16 Nov 2020

ActBERT: Learning Global-Local Video-Text RepresentationsComputer Vision and Pattern Recognition (CVPR), 2020

Linchao Zhu

Yi Yang

ViT

327

452

14 Nov 2020

Multimodal Pretraining for Dense Video Captioning

181

101

10 Nov 2020

Human-centric Spatio-Temporal Video Grounding With Visual Transformers

Zongheng Tang

217

127

10 Nov 2020

Long Range Arena: A Benchmark for Efficient Transformers

383

832

08 Nov 2020

Training Transformers for Information Security Tasks: A Case Study on Malicious URL Prediction

Ethan M. Rudd

Ahmed Abdallah

133

05 Nov 2020

Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings

Yue Wang

Jing Li

Michael R. Lyu

Irwin King

243

03 Nov 2020

COOT: Cooperative Hierarchical Transformer for Video-Text Representation LearningNeural Information Processing Systems (NeurIPS), 2020

Simon Ging

Mohammadreza Zolfaghari

Hamed Pirsiavash

Thomas Brox

ViT CLIP

204

178

01 Nov 2020

Leveraging Visual Question Answering to Improve Text-to-Image Synthesis

134

28 Oct 2020

Co-attentional Transformers for Story-Based Video UnderstandingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

Björn Bebensee

Byoung-Tak Zhang

137

27 Oct 2020

MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question AnsweringFindings (Findings), 2020

215

27 Oct 2020

Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions

Radhika Dua

Sai Srinivas Kancheti

V. Balasubramanian

LRM

266

24 Oct 2020

Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions

201

24 Oct 2020

Multilingual Speech Translation with Efficient Finetuning of Pretrained Models

Michael Auli

284

24 Oct 2020

Can images help recognize entities? A study of the role of images for Multimodal NER

269

23 Oct 2020