ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Neural Information Processing Systems (NeurIPS), 2019

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,233 papers shown

Supervised Contrastive Learning for Multimodal Unreliable News Detection in COVID-19 Pandemic

Wenjia Zhang

Lin Gui

Yulan He

143

04 Sep 2021

Multimodal Conditionality for Natural Language Generation

Michael Sollami

Aashish Jain

154

02 Sep 2021

Point-of-Interest Type Prediction using Text and ImagesConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Danae Sánchez Villegas

Nikolaos Aletras

234

01 Sep 2021

WebQA: Multihop and Multimodal QAComputer Vision and Pattern Recognition (CVPR), 2021

389

122

01 Sep 2021

CTAL: Pre-training Cross-modal Transformer for Audio-and-Language RepresentationsConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Zitao Liu

190

01 Sep 2021

On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering

K. Gouthaman

Anurag Mittal

CML

229

28 Aug 2021

Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-trainingACM Multimedia (ACM MM), 2021

Qin Jin

Fei Huang

211

25 Aug 2021

INVIGORATE: Interactive Visual Grounding and Grasping in Clutter

Yunfan Lu

252

25 Aug 2021

SimVLM: Simple Visual Language Model Pretraining with Weak SupervisionInternational Conference on Learning Representations (ICLR), 2021

1.0K

927

24 Aug 2021

TACo: Token-aware Cascade Contrastive Learning for Video-Text AlignmentIEEE International Conference on Computer Vision (ICCV), 2021

Jianwei Yang

Yonatan Bisk

Jianfeng Gao

258

23 Aug 2021

From Two to One: A New Scene Text Recognizer with Visual Language Modeling NetworkIEEE International Conference on Computer Vision (ICCV), 2021

254

180

22 Aug 2021

Multimodal Breast Lesion Classification Using Cross-Attention Deep Networks

203

21 Aug 2021

Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training

137

21 Aug 2021

Airbert: In-domain Pretraining for Vision-and-Language Navigation

231

172

20 Aug 2021

Knowledge Perceived Multi-modal Pretraining in E-commerce

Ningyu Zhang

Huajun Chen

262

20 Aug 2021

Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach

Chuanbo Hu

Minglei Yin

Bin Liu

Xin Li

Yanfang Ye

119

19 Aug 2021

X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

Yingwei Pan

Tao Mei

195

18 Aug 2021

Who's Waldo? Linking People Across Text and Images

237

16 Aug 2021

MMChat: Multi-Modal Chat Dataset on Social Media

338

16 Aug 2021

ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration

Ji Zhang

Meng Wang

Jun-chen Yu

VLM

177

16 Aug 2021

Video Transformer for Deepfake Detection with Incremental LearningACM Multimedia (ACM MM), 2021

Sohail Ahmed Khan

Hang Dai

ViT

215

11 Aug 2021

BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis

118

10 Aug 2021

Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion

Govind Thattai

372

10 Aug 2021

Relation-aware Compositional Zero-shot Learning for Attribute-Object Pair RecognitionIEEE transactions on multimedia (IEEE Trans. Multimedia), 2021

179

10 Aug 2021

Image Retrieval on Real-life Images with Pre-trained Vision-and-Language ModelsIEEE International Conference on Computer Vision (ICCV), 2021

Zheyuan Liu

Cristian Rodriguez-Opazo

Damien Teney

Stephen Gould

VLM

298

306

09 Aug 2021

Disentangling Hate in Online MemesACM Multimedia (ACM MM), 2021

289

106

09 Aug 2021

Detecting Propaganda Techniques in MemesAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Dimitar Dimitrov

Firoj Alam

Giovanni Da San Martino

255

104

07 Aug 2021

Interpretable Visual Understanding with Cognitive Attention NetworkInternational Conference on Artificial Neural Networks (ICANN), 2021

Wenbin Zhang

290

06 Aug 2021

StrucTexT: Structured Text Understanding with Multi-Modal TransformersACM Multimedia (ACM MM), 2021

Yan Liu

Errui Ding

316

140

06 Aug 2021

Fast Convergence of DETR with Spatially Modulated Co-AttentionIEEE International Conference on Computer Vision (ICCV), 2021

Minghang Zheng

274

375

05 Aug 2021

Exploiting BERT For Multimodal Target Sentiment Classification Through Input Space Translation

Zaid Khan

Y. Fu

178

182

03 Aug 2021

Representation learning for neural population activity with Neural Data Transformers

Joel Ye

C. Pandarinath

AI4TS AI4CE

417

02 Aug 2021

StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

Daniel Cohen-Or

308

286

02 Aug 2021

Word2Pix: Word to Pixel Cross Attention Transformer in Visual GroundingIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

208

31 Jul 2021

Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal PretrainingIEEE International Conference on Computer Vision (ICCV), 2021

Hang Xu

Xiaodan Liang

ViT

297

30 Jul 2021

Multimodal Co-learning: Challenges, Applications with Datasets, Recent Advances and Future DirectionsInformation Fusion (Inf. Fusion), 2021

429

179

29 Jul 2021

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language ProcessingACM Computing Surveys (CSUR), 2021

Graham Neubig

798

4,996

28 Jul 2021

Exceeding the Limits of Visual-Linguistic Multi-Task Learning

Cameron R. Wolfe

Keld T. Lundgaard

VLM

186

27 Jul 2021

Language Grounding with 3D ObjectsConference on Robot Learning (CoRL), 2021

Luke Zettlemoyer

224

26 Jul 2021

Spatial-Temporal Transformer for Dynamic Scene Graph GenerationIEEE International Conference on Computer Vision (ICCV), 2021

357

151

26 Jul 2021

Multi-stage Pre-training over Simplified Multimodal Pre-training ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Tongtong Liu

Fangxiang Feng

Caixia Yuan

22 Jul 2021

DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic FrameworkACM Multimedia (ACM MM), 2021

131

21 Jul 2021

Neural Variational Learning for Grounded Language AcquisitionIEEE International Symposium on Robot and Human Interactive Communication (RO-MAN), 2021

256

20 Jul 2021

Neural Abstructions: Abstractions that Support Construction for Grounded Language Learning

Kaylee Burns

Christopher D. Manning

Li Fei-Fei

226

20 Jul 2021

Separating Skills and Concepts for Novel Visual Question AnsweringComputer Vision and Pattern Recognition (CVPR), 2021

Heng Ji

192

19 Jul 2021

Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant ImagesAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

180

19 Jul 2021

Align before Fuse: Vision and Language Representation Learning with Momentum DistillationNeural Information Processing Systems (NeurIPS), 2021

Junnan Li

Ramprasaath R. Selvaraju

Akhilesh Deepak Gotmare

865

2,536

16 Jul 2021

MultiBench: Multiscale Benchmarks for Multimodal Representation Learning

...

Peter Wu

Michelle A. Lee

Yuke Zhu

Ruslan Salakhutdinov

Louis-Philippe Morency

VLM

306

229

15 Jul 2021

From Show to Tell: A Survey on Deep Learning-based Image CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Lorenzo Baraldi

464

358

14 Jul 2021

How Much Can CLIP Benefit Vision-and-Language Tasks?

521

480

13 Jul 2021