ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Neural Information Processing Systems (NeurIPS), 2019

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,232 papers shown

AMMU : A Survey of Transformer-based Biomedical Pretrained Language ModelsJournal of Biomedical Informatics (JBI), 2021

Katikapalli Subramanyam Kalyan

A. Rajasekharan

S. Sangeetha

LM&MA MedIm

389

192

16 Apr 2021

Cross-Modal Retrieval Augmentation for Multi-Modal ClassificationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Shir Gur

Natalia Neverova

C. Stauffer

Ser-Nam Lim

Douwe Kiela

A. Reiter

217

16 Apr 2021

Effect of Visual Extensions on Natural Language Understanding in Vision-and-Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Taichi Iki

Akiko Aizawa

VLM

237

16 Apr 2021

Exploring Visual Engagement Signals for Representation LearningIEEE International Conference on Computer Vision (ICCV), 2021

Zuxuan Wu

Ser-Nam Lim

174

15 Apr 2021

Learning Zero-Shot Multifaceted Visually Grounded Word Embeddings via Multi-Task TrainingConference on Computational Natural Language Learning (CoNLL), 2021

Hassan Shahmohammadi

Hendrik P. A. Lensch

R. Baayen

194

15 Apr 2021

MultiModalQA: Complex Question Answering over Text, Tables and ImagesInternational Conference on Learning Representations (ICLR), 2021

279

210

13 Apr 2021

Disentangled Motif-aware Graph Learning for Phrase GroundingAAAI Conference on Artificial Intelligence (AAAI), 2021

251

13 Apr 2021

Escaping the Big Data Paradigm with Compact Transformers

550

547

12 Apr 2021

FreSaDa: A French Satire Data Set for Cross-Domain Satire DetectionIEEE International Joint Conference on Neural Network (IJCNN), 2021

Radu Tudor Ionescu

Adrian-Gabriel Chifu

158

10 Apr 2021

The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language NavigationIEEE International Conference on Computer Vision (ICCV), 2021

Ming-Hsuan Yang

Qi Wu

239

09 Apr 2021

Exploiting Natural Language for Efficient Risk-Aware Multi-robot SaR PlanningIEEE Robotics and Automation Letters (RA-L), 2021

120

08 Apr 2021

Video Question Answering with Phrases via Semantic RolesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Arka Sadhu

Kan Chen

Ram Nevatia

177

08 Apr 2021

How Transferable are Reasoning Patterns in VQA?Computer Vision and Pattern Recognition (CVPR), 2021

149

08 Apr 2021

Multimodal Fusion Refiner Networks

Sethuraman Sankaran

David Yang

Ser-Nam Lim

OffRL

172

08 Apr 2021

Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question AnsweringIEEE International Conference on Computer Vision (ICCV), 2021

332

07 Apr 2021

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation LearningComputer Vision and Pattern Recognition (CVPR), 2021

428

302

07 Apr 2021

Compressing Visual-linguistic Model via Knowledge DistillationIEEE International Conference on Computer Vision (ICCV), 2021

Zhiyuan Fang

Jianfeng Wang

Xiaowei Hu

Lijuan Wang

Yezhou Yang

Zicheng Liu

VLM

283

116

05 Apr 2021

MMBERT: Multimodal BERT Pretraining for Improved Medical VQAIEEE International Symposium on Biomedical Imaging (ISBI), 2021

280

172

03 Apr 2021

VisQA: X-raying Vision and Language Reasoning in TransformersIEEE Transactions on Visualization and Computer Graphics (TVCG), 2021

301

02 Apr 2021

Towards General Purpose Vision SystemsComputer Vision and Pattern Recognition (CVPR), 2021

275

01 Apr 2021

UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2021

235

107

01 Apr 2021

CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning

Lei Zhang

196

01 Apr 2021

A Survey on Natural Language Video Localization

248

01 Apr 2021

StyleCLIP: Text-Driven Manipulation of StyleGAN ImageryIEEE International Conference on Computer Vision (ICCV), 2021

Daniel Cohen-Or

390

1,373

31 Mar 2021

Diagnosing Vision-and-Language Navigation: What Really MattersNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Qi Wu

233

30 Mar 2021

Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with TransformersComputer Vision and Pattern Recognition (CVPR), 2021

Antoine Miech

Jean-Baptiste Alayrac

329

160

30 Mar 2021

Kaleido-BERT: Vision-Language Pre-training on Fashion DomainComputer Vision and Pattern Recognition (CVPR), 2021

350

134

30 Mar 2021

Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays

Xiaosong Wang

Ziyue Xu

140

30 Mar 2021

Domain-robust VQA with diverse datasets and methods but no target labelsComputer Vision and Pattern Recognition (CVPR), 2021

300

29 Mar 2021

Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder TransformersIEEE International Conference on Computer Vision (ICCV), 2021

358

412

29 Mar 2021

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image EncodingIEEE International Conference on Computer Vision (ICCV), 2021

Pengchuan Zhang

Xiyang Dai

Jianwei Yang

Bin Xiao

Lu Yuan

Lei Zhang

Jianfeng Gao

ViT

306

373

29 Mar 2021

HiT: Hierarchical Transformer with Momentum Contrast for Video-Text RetrievalIEEE International Conference on Computer Vision (ICCV), 2021

343

166

28 Mar 2021

'Just because you are right, doesn't mean I am wrong': Overcoming a Bottleneck in the Development and Evaluation of Open-Ended Visual Question Answering (VQA) TasksConference of the European Chapter of the Association for Computational Linguistics (EACL), 2021

Man Luo

Shailaja Keyur Sampat

155

28 Mar 2021

Generating and Evaluating Explanations of Attended and Error-Inducing Input Regions for VQA ModelsApplied AI Letters (AA), 2021

153

26 Mar 2021

Understanding Robustness of Transformers for Image ClassificationIEEE International Conference on Computer Vision (ICCV), 2021

Srinadh Bhojanapalli

313

472

26 Mar 2021

Describing and Localizing Multiple Changes with TransformersIEEE International Conference on Computer Vision (ICCV), 2021

240

25 Mar 2021

Visual Grounding Strategies for Text-Only Natural Language Processing

Damien Sileo

103

25 Mar 2021

VLGrammar: Grounded Grammar Induction of Vision and LanguageIEEE International Conference on Computer Vision (ICCV), 2021

177

24 Mar 2021

Scene-Intuitive Agent for Remote Embodied Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2021

190

24 Mar 2021

Multi-Modal Answer Validation for Knowledge-Based VQAAAAI Conference on Artificial Intelligence (AAAI), 2021

Jialin Wu

Jiasen Lu

Ashish Sabharwal

Roozbeh Mottaghi

377

167

23 Mar 2021

Instance-level Image Retrieval using Reranking TransformersIEEE International Conference on Computer Vision (ICCV), 2021

357

107

22 Mar 2021

Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal RetrievalTransactions of the Association for Computational Linguistics (TACL), 2021

307

22 Mar 2021

DeepViT: Towards Deeper Vision Transformer

Linjie Yang

348

604

22 Mar 2021

Incorporating Convolution Designs into Visual TransformersIEEE International Conference on Computer Vision (ICCV), 2021

Ziwei Liu

300

566

22 Mar 2021

MaAST: Map Attention with Semantic Transformersfor Efficient Visual NavigationIEEE International Conference on Robotics and Automation (ICRA), 2021

Zachary Seymour

Kowshik Thopalli

Niluthpol Chowdhury Mithun

152

21 Mar 2021

Let Your Heart Speak in its Mother Tongue: Multilingual Captioning of Cardiac Signals

Dani Kiyasseh

T. Zhu

David Clifton

238

19 Mar 2021

Variational Knowledge Distillation for Disease Classification in Chest X-RaysInformation Processing in Medical Imaging (IPMI), 2021

19 Mar 2021

Space-Time Crop & Attend: Improving Cross-modal Video Representation LearningIEEE International Conference on Computer Vision (ICCV), 2021

Joao Henriques

Andrea Vedaldi

AI4TS

278

18 Mar 2021

Few-Shot Visual Grounding for Natural Human-Robot Interaction

Georgios Tziafas

S. Kasaei

202

17 Mar 2021

On the Role of Images for Analyzing Claims in Social Media

260

17 Mar 2021