VisualBERT: A Simple and Performant Baseline for Vision and Language

9 August 2019

Papers citing "VisualBERT: A Simple and Performant Baseline for Vision and Language"

50 / 1,260 papers shown

Productivity, Portability, Performance: Data-Centric Python

412

112

01 Jul 2021

GlyphCRM: Bidirectional Encoder Representation for Chinese Character with its Glyph

Baotian Hu

Xiaolong Wang

Lin Ma

121

01 Jul 2021

OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation

Jing Liu

...

299

01 Jul 2021

Attention Bottlenecks for Multimodal FusionNeural Information Processing Systems (NeurIPS), 2021

577

698

30 Jun 2021

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training

406

25 Jun 2021

A Picture May Be Worth a Hundred Words for Visual Question Answering

145

25 Jun 2021

A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021

24 Jun 2021

DocFormer: End-to-End Transformer for Document UnderstandingIEEE International Conference on Computer Vision (ICCV), 2021

Bhargava Urala Kota

348

346

22 Jun 2021

AOMD: An Analogy-aware Approach to Offensive Meme Detection on Social MediaInformation Processing & Management (IPM), 2021

Yang Zhang

Dong Wang

109

21 Jun 2021

Efficient Self-supervised Vision Transformers for Representation LearningInternational Conference on Learning Representations (ICLR), 2021

Jianwei Yang

Lu Yuan

302

222

17 Jun 2021

Probing Image-Language Transformers for Verb Understanding

Lisa Anne Hendricks

Aida Nematzadeh

214

131

16 Jun 2021

Pre-Trained Models: Past, Present and FutureAI Open (AO), 2021

Xu Han

Zhengyan Zhang

Ning Ding

Yuxian Gu

Xiao Liu

...

Jun Zhu

385

990

14 Jun 2021

Deciphering Implicit Hate: Evaluating Automated Detection Algorithms for Multimodal HateFindings (Findings), 2021

Austin Botelho

Bertie Vidgen

Scott A. Hale

10 Jun 2021

Keeping Your Eye on the Ball: Trajectory Attention in Video TransformersNeural Information Processing Systems (NeurIPS), 2021

Ishan Misra Florian Metze

Christoph Feichtenhofer

Andrea Vedaldi

João F. Henriques

283

340

09 Jun 2021

Check It Again: Progressive Visual Question Answering via Visual EntailmentAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Zheng Lin

151

08 Jun 2021

A Survey of TransformersAI Open (AO), 2021

Tianyang Lin

Yuxin Wang

Xiangyang Liu

Xipeng Qiu

ViT

445

1,386

08 Jun 2021

Chasing Sparsity in Vision Transformers: An End-to-End ExplorationNeural Information Processing Systems (NeurIPS), 2021

Tianlong Chen

Yu Cheng

Zhe Gan

Lu Yuan

Lei Zhang

Zinan Lin

ViT

254

255

08 Jun 2021

Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused InterventionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

276

08 Jun 2021

MERLOT: Multimodal Neural Script Knowledge ModelsNeural Information Processing Systems (NeurIPS), 2021

Yejin Choi

348

428

04 Jun 2021

Human-Adversarial Visual Question AnsweringNeural Information Processing Systems (NeurIPS), 2021

Sasha Sheng

Amanpreet Singh

Vedanuj Goswami

Jose Alberto Lopez Magana

Wojciech Galuba

Devi Parikh

Douwe Kiela

OOD EgoV AAML

122

04 Jun 2021

E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual LearningAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Fei Huang

316

127

03 Jun 2021

Volta at SemEval-2021 Task 6: Towards Detecting Persuasive Texts and Images using Textual and Multimodal EnsembleInternational Workshop on Semantic Evaluation (SemEval), 2021

Kshitij Gupta

Devansh Gautam

R. Mamidi

101

01 Jun 2021

Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation

Rui Yan

Jiwei Li

220

30 May 2021

Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing

223

30 May 2021

Enhance Multimodal Model Performance with Data Augmentation: Facebook Hateful Meme Challenge Solution

Yang Li

Zi-xin Zhang

Hutchin Huang

173

25 May 2021

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-TrainingIEEE journal of biomedical and health informatics (JBHI), 2021

Young-Hak Kim

226

211

24 May 2021

VLM: Task-agnostic Video-Language Model Pre-training for Video UnderstandingFindings (Findings), 2021

Hu Xu

Gargi Ghosh

Po-Yao (Bernie) Huang

Prahal Arora

Masoumeh Aminzadeh

Christoph Feichtenhofer

Florian Metze

Luke Zettlemoyer

327

146

20 May 2021

Recent Advances in Deep Learning Based Dialogue Systems: A Systematic SurveyArtificial Intelligence Review (AIR), 2021

831

322

10 May 2021

Chop Chop BERT: Visual Question Answering by Chopping VisualBERT's HeadsInternational Joint Conference on Artificial Intelligence (IJCAI), 2021

Chenyu Gao

Qi Zhu

Peng Wang

Qi Wu

105

30 Apr 2021

Multimodal Contrastive Training for Visual Representation LearningComputer Vision and Pattern Recognition (CVPR), 2021

240

191

26 Apr 2021

MDETR -- Modulated Detection for End-to-End Multi-Modal UnderstandingIEEE International Conference on Computer Vision (ICCV), 2021

637

1,055

26 Apr 2021

InfographicVQAIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2021

378

370

26 Apr 2021

SemEval-2021 Task 6: Detection of Persuasion Techniques in Texts and ImagesInternational Workshop on Semantic Evaluation (SemEval), 2021

Dimitar Dimitrov

Firoj Alam

Giovanni Da San Martino

147

120

25 Apr 2021

MusCaps: Generating Captions for Music AudioIEEE International Joint Conference on Neural Network (IJCNN), 2021

284

24 Apr 2021

Playing Lottery Tickets with Vision and LanguageAAAI Conference on Artificial Intelligence (AAAI), 2021

Zicheng Liu

303

23 Apr 2021

Multiscale Vision TransformersIEEE International Conference on Computer Vision (ICCV), 2021

Christoph Feichtenhofer

ViT

481

1,513

22 Apr 2021

Detector-Free Weakly Supervised Grounding by SeparationIEEE International Conference on Computer Vision (ICCV), 2021

...

186

20 Apr 2021

BM-NAS: Bilevel Multimodal Neural Architecture SearchAAAI Conference on Artificial Intelligence (AAAI), 2021

Yihang Yin

Siyu Huang

Xiang Zhang

232

19 Apr 2021

LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

261

167

18 Apr 2021

LAMPRET: Layout-Aware Multimodal PreTraining for Document Understanding

Spurthi Amba Hombaiah

Michael Bendersky

147

16 Apr 2021

Cross-Modal Retrieval Augmentation for Multi-Modal ClassificationConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Shir Gur

Natalia Neverova

C. Stauffer

Ser-Nam Lim

Douwe Kiela

A. Reiter

217

16 Apr 2021

Effect of Visual Extensions on Natural Language Understanding in Vision-and-Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Taichi Iki

Akiko Aizawa

VLM

234

16 Apr 2021

NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal MediaConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Grace Luo

Trevor Darrell

Anna Rohrbach

247

127

13 Apr 2021

Non-autoregressive Transformer-based End-to-end ASR using BERTIEEE/ACM Transactions on Audio Speech and Language Processing (TASLP), 2021

Fu-Hao Yu

Kuan-Yu Chen

141

10 Apr 2021

How Transferable are Reasoning Patterns in VQA?Computer Vision and Pattern Recognition (CVPR), 2021

149

08 Apr 2021

Multimodal Fusion Refiner Networks

Sethuraman Sankaran

David Yang

Ser-Nam Lim

OffRL

172

08 Apr 2021

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation LearningComputer Vision and Pattern Recognition (CVPR), 2021

425

303

07 Apr 2021

Towards General Purpose Vision SystemsComputer Vision and Pattern Recognition (CVPR), 2021

275

01 Apr 2021

Zero-Shot Language Transfer vs Iterative Back Translation for Unsupervised Machine Translation

Aviral Joshi

Chengzhi Huang

H. Singh

157

31 Mar 2021

StyleCLIP: Text-Driven Manipulation of StyleGAN ImageryIEEE International Conference on Computer Vision (ICCV), 2021

Daniel Cohen-Or

390

1,369

31 Mar 2021