ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Neural Information Processing Systems (NeurIPS), 2019

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,232 papers shown

End-to-end Multi-modal Video Temporal Grounding

Yi-Wen Chen

Yi-Hsuan Tsai

Ming-Hsuan Yang

268

12 Jul 2021

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

Shuang Wu

Xiaoning Song

Zhenhua Feng

212

130

12 Jul 2021

BERT-like Pre-training for Symbolic Piano Music Classification Tasks

275

12 Jul 2021

Zero-Shot Compositional Concept Learning

226

12 Jul 2021

Evaluating Large Language Models Trained on Code

...

2.2K

8,106

07 Jul 2021

Deep Learning for Embodied Vision Navigation: A Survey

Fengda Zhu

Yi Zhu

Vincent CS Lee

Xiaodan Liang

Xiaojun Chang

EgoV LM&Ro

506

07 Jul 2021

VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer

195

06 Jul 2021

PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling

259

06 Jul 2021

Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory

Wenbin Zhang

201

04 Jul 2021

Target-dependent UNITER: A Transformer-Based Multimodal Language Comprehension Model for Domestic Service Robots

Shintaro Ishikawa

K. Sugiura

171

02 Jul 2021

Case Relation Transformer: A Crossmodal Language Generation Model for Fetching Instructions

Motonari Kambara

K. Sugiura

ViT

150

02 Jul 2021

Productivity, Portability, Performance: Data-Centric Python

416

112

01 Jul 2021

OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation

Jing Liu

...

306

01 Jul 2021

Attention Bottlenecks for Multimodal FusionNeural Information Processing Systems (NeurIPS), 2021

590

710

30 Jun 2021

The Values Encoded in Machine Learning ResearchConference on Fairness, Accountability and Transparency (FAccT), 2021

354

342

29 Jun 2021

Adventurer's Treasure Hunt: A Transparent System for Visually Grounded Compositional Visual Question Answering based on Scene Graphs

Daniel Reich

F. Putze

Tanja Schultz

215

28 Jun 2021

UMIC: An Unreferenced Metric for Image Captioning via Contrastive LearningAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

249

26 Jun 2021

Core Challenges in Embodied Vision-Language PlanningJournal of Artificial Intelligence Research (JAIR), 2021

Jean Oh

547

26 Jun 2021

Multimodal Few-Shot Learning with Frozen Language ModelsNeural Information Processing Systems (NeurIPS), 2021

557

907

25 Jun 2021

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training

414

25 Jun 2021

A Picture May Be Worth a Hundred Words for Visual Question Answering

148

25 Jun 2021

iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability

Andrew Wang

Vasu Sharma

CML

146

25 Jun 2021

A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021

24 Jun 2021

DocFormer: End-to-End Transformer for Document UnderstandingIEEE International Conference on Computer Vision (ICCV), 2021

Bhargava Urala Kota

380

353

22 Jun 2021

Towards Long-Form Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2021

Chaoxia Wu

Philipp Krahenbuhl

VLM ViT

335

195

21 Jun 2021

GEM: A General Evaluation Benchmark for Multimodal TasksFindings (Findings), 2021

228

18 Jun 2021

Efficient Self-supervised Vision Transformers for Representation LearningInternational Conference on Learning Representations (ICLR), 2021

Jianwei Yang

Lu Yuan

313

225

17 Jun 2021

Probing Image-Language Transformers for Verb Understanding

Lisa Anne Hendricks

Aida Nematzadeh

216

132

16 Jun 2021

A Fair and Comprehensive Comparison of Multimodal Tweet Sentiment Analysis Methods

174

16 Jun 2021

Vision-Language Navigation with Random Environmental MixupIEEE International Conference on Computer Vision (ICCV), 2021

Chong Liu

Fengda Zhu

Xiaojun Chang

Xiaodan Liang

Zongyuan Ge

Yi-Dong Shen

LM&Ro

301

107

15 Jun 2021

Pre-Trained Models: Past, Present and FutureAI Open (AO), 2021

Xu Han

Zhengyan Zhang

Ning Ding

Yuxian Gu

Xiao Liu

...

Jun Zhu

392

995

14 Jun 2021

Assessing Multilingual Fairness in Pre-trained Multimodal RepresentationsFindings (Findings), 2021

Jialu Wang

Yang Liu

Xinze Wang

EGVM

238

12 Jun 2021

Team RUC_AIM3 Technical Report at ActivityNet 2021: Entities Object Localization

Qin Jin

11 Jun 2021

ImaginE: An Imagination-Based Automatic Evaluation Metric for Natural Language GenerationFindings (Findings), 2021

147

10 Jun 2021

Keeping Your Eye on the Ball: Trajectory Attention in Video TransformersNeural Information Processing Systems (NeurIPS), 2021

Ishan Misra Florian Metze

Christoph Feichtenhofer

Andrea Vedaldi

João F. Henriques

293

342

09 Jun 2021

Bayesian Attention Belief NetworksInternational Conference on Machine Learning (ICML), 2021

Shujian Zhang

Xinjie Fan

Bo Chen

Mingyuan Zhou

BDL

261

09 Jun 2021

PAM: Understanding Product Images in Cross Product Category Attribute ExtractionKnowledge Discovery and Data Mining (KDD), 2021

215

08 Jun 2021

Chasing Sparsity in Vision Transformers: An End-to-End ExplorationNeural Information Processing Systems (NeurIPS), 2021

Tianlong Chen

Yu Cheng

Zhe Gan

Lu Yuan

Lei Zhang

Zinan Lin

ViT

260

259

08 Jun 2021

BERTGEN: Multi-task Generation through BERTAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Pranava Madhyastha

123

07 Jun 2021

SelfDoc: Self-Supervised Document Representation LearningComputer Vision and Pattern Recognition (CVPR), 2021

Jiuxiang Gu

196

180

07 Jun 2021

Oriented Object Detection with Transformer

Errui Ding

161

06 Jun 2021

Referring Transformer: A One-step Approach to Multi-task Visual GroundingNeural Information Processing Systems (NeurIPS), 2021

Muchen Li

Leonid Sigal

ObjD

343

239

06 Jun 2021

MERLOT: Multimodal Neural Script Knowledge ModelsNeural Information Processing Systems (NeurIPS), 2021

Yejin Choi

358

430

04 Jun 2021

Human-Adversarial Visual Question AnsweringNeural Information Processing Systems (NeurIPS), 2021

Sasha Sheng

Amanpreet Singh

Vedanuj Goswami

Jose Alberto Lopez Magana

Wojciech Galuba

Devi Parikh

Douwe Kiela

OOD EgoV AAML

128

04 Jun 2021

Scalable Transformers for Neural Machine Translation

231

04 Jun 2021

E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual LearningAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Fei Huang

324

128

03 Jun 2021

TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data

126

03 Jun 2021

Attention mechanisms and deep learning for machine vision: A survey of the state of the art

A. M. Hafiz

S. A. Parah

R. A. Bhat

229

03 Jun 2021

More Identifiable yet Equally Performant Transformers for Text ClassificationAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

02 Jun 2021

Towards Efficient Cross-Modal Visual Textual Retrieval using Transformer-Encoder Deep FeaturesInternational Conference on Content-Based Multimedia Indexing (CBMI), 2021

Stéphane Marchand-Maillet

01 Jun 2021