ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Neural Information Processing Systems (NeurIPS), 2019

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,231 papers shown

Title
ST-BERT: Cross-modal Language Model Pre-training For End-to-end Spoken Language UnderstandingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020 Minjeong Kim Gyuwan Kim Sang-Woo Lee Jung-Woo Ha VLM 178 37 0 23 Oct 2020
Language-Conditioned Imitation Learning for Robot Manipulation Tasks Simon Stepputtis Joseph Campbell Mariano Phielipp Stefan Lee Chitta Baral H. B. Amor LM&Ro 357 228 0 22 Oct 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 1.3K 54,329 0 22 Oct 2020
Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional EntropiesNeural Information Processing Systems (NeurIPS), 2020 Itai Gat Idan Schwartz Alex Schwing Tamir Hazan 238 98 0 21 Oct 2020
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 269 6 0 19 Oct 2020
Towards Data Distillation for End-to-end Spoken Conversational Question Answering Chenyu You Polydoros Giannouris Fenglin Liu Dongchao Yang Yuexian Zou 229 50 0 18 Oct 2020
Knowledge-Grounded Dialogue Generation with Pre-trained Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2020 Xueliang Zhao Wei Wu Can Xu Chongyang Tao Dongyan Zhao Rui Yan 391 201 0 17 Oct 2020
Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question AnsweringInternational Conference on Pattern Recognition (ICPR), 2020 Hantao Huang Tao Han Wei Han D. Yap Cheng-Ming Chiang 122 4 0 17 Oct 2020
Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2020 Wanyun Cui Guangyu Zheng Wei Wang SSL 98 21 0 16 Oct 2020
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs Ana Marasović Chandra Bhagavatula J. S. Park Ronan Le Bras Noah A. Smith Yejin Choi ReLM LRM 228 63 0 15 Oct 2020
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision Hao Tan Joey Tianyi Zhou CLIP 185 126 0 14 Oct 2020
A Multi-Modal Method for Satire Detection using Textual and Visual Cues Lily Li Or Levi Pedram Hosseini David A. Broniatowski 137 30 0 13 Oct 2020
CAPT: Contrastive Pre-Training for Learning Denoised Sequence Representations Fuli Luo Pengcheng Yang Shicheng Li Xuancheng Ren Xu Sun VLM SSL 175 16 0 13 Oct 2020
Contrast and Classify: Training Robust VQA Models Yash Kant A. Moudgil Dhruv Batra Devi Parikh Harsh Agrawal 131 5 0 13 Oct 2020
Webly Supervised Image Classification with Metadata: Automatic Noisy Label Correction via Visual-Semantic Graph Jingkang Yang Weirong Chen Xue Jiang Xiaopeng Yan Huabin Zheng Wayne Zhang NoLa 121 13 0 12 Oct 2020
Beyond Language: Learning Commonsense from Images for ReasoningFindings (Findings), 2020 Wanqing Cui Yanyan Lan Liang Pang Jiafeng Guo Xueqi Cheng LRM 129 5 0 10 Oct 2020
comp-syn: Perceptually Grounded Word Embeddings with ColorInternational Conference on Computational Linguistics (COLING), 2020 Bhargav Srinivasa Desikan Tasker Hull E. Nadler Douglas Guilbeault Aabir Abubaker Kar Mark Chu Donald Ruggiero Lo Sardo 118 11 0 08 Oct 2020
ALFWorld: Aligning Text and Embodied Environments for Interactive Learning Mohit Shridhar Xingdi Yuan Marc-Alexandre Côté Yonatan Bisk Adam Trischler Matthew J. Hausknecht LM&Ro LLMAG 403 619 0 08 Oct 2020
Multi-label classification of promotions in digital leaflets using textual and visual information R. Arroyo David Jiménez-Cabello Javier Martínez-Cebrián 144 3 0 07 Oct 2020
ZEST: Zero-shot Learning from Text Descriptions using Textual Similarity and Visual Summarization Tzuf Paz-Argaman Yuval Atzmon Gal Chechik Reut Tsarfaty VLM 145 33 0 07 Oct 2020
Learning to Represent Image and Text with Denotation Graph Bowen Zhang Hexiang Hu Vihan Jain Eugene Ie Fei Sha 152 22 0 06 Oct 2020
Support-set bottlenecks for video-text representation learning Mandela Patrick Po-Yao (Bernie) Huang Yuki M. Asano Florian Metze Alexander G. Hauptmann João Henriques Andrea Vedaldi 266 260 0 06 Oct 2020
Pathological Visual Question Answering Xuehai He Zhuo Cai Wenlan Wei Yichen Zhang Luntian Mou Eric Xing P. Xie 282 30 0 06 Oct 2020
Attention Guided Semantic Relationship Parsing for Visual Question Answering M. Farazi Salman Khan Nick Barnes 108 3 0 05 Oct 2020
Multi-Modal Open-Domain DialogueConference on Empirical Methods in Natural Language Processing (EMNLP), 2020 Kurt Shuster Eric Michael Smith Da Ju Jason Weston AI4CE 259 48 0 02 Oct 2020
Contrastive Learning of Medical Visual Representations from Paired Images and TextMachine Learning in Health Care (MLHC), 2020 Yuhao Zhang Hang Jiang Yasuhide Miura Christopher D. Manning C. Langlotz MedIm 630 934 0 02 Oct 2020
Learning Object Detection from Captions via Textual Scene Attributes Achiya Jerbi Roei Herzig Jonathan Berant Gal Chechik Amir Globerson 193 21 0 30 Sep 2020
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing Tao Yu Chien-Sheng Wu Xi Lin Bailin Wang Y. Tan Xinyi Yang Dragomir R. Radev R. Socher Caiming Xiong LMTD 316 275 0 29 Sep 2020
VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning Xiaowei Hu Xi Yin Kevin Qinghong Lin Lijuan Wang Guang Dai Jianfeng Gao Zicheng Liu VLM 203 58 0 28 Sep 2020
X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal TransformersConference on Empirical Methods in Natural Language Processing (EMNLP), 2020 Jaemin Cho Jiasen Lu Dustin Schwenk Hannaneh Hajishirzi Aniruddha Kembhavi VLM MLLM 174 106 0 23 Sep 2020
Preserving Integrity in Online Social NetworksCommunications of the ACM (CACM), 2020 A. Halevy Cristian Canton Ferrer Hao Ma Umut Ozertem Patrick Pantel Marzieh Saeidi Fabrizio Silvestri Ves Stoyanov 225 62 0 22 Sep 2020
MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2020 Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang OOD 198 155 0 18 Sep 2020
A Multimodal Memes Classification: A Survey and Open Research Issues Tariq Habib Afridi A. Alam Muhammad Numan Khan Jawad Khan Young-Koo Lee 194 42 0 17 Sep 2020
Multi-modal Summarization for Video-containing Documents Xiyan Fu Jun Wang Zhenglu Yang 134 26 0 17 Sep 2020
Machine Learning for Temporal Data in Finance: Challenges and Opportunities J. Wittenbach Learning McLean Virginia Brian AI4TS 106 2 0 11 Sep 2020
Denoising Large-Scale Image Captioning from Alt-text Data using Content Selection ModelsInternational Conference on Computational Linguistics (COLING), 2020 Khyathi Chandu Piyush Sharma Soravit Changpinyo Ashish V. Thapliyal Radu Soricut DiffM VLM 213 3 0 10 Sep 2020
Investigating Gender Bias in BERTCognitive Computation (Cogn Comput), 2020 Rishabh Bhardwaj Navonil Majumder Soujanya Poria 209 117 0 10 Sep 2020
Visual Relationship Detection with Visual-Linguistic Knowledge from Multimodal Representations Meng-Jiun Chiou Roger Zimmermann Jiashi Feng 236 1 0 10 Sep 2020
Video Moment Retrieval via Natural Language Queries Xinli Yu Mohsen Malmir C. He Yue Liu Rex Wu 144 1 0 04 Sep 2020
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and ReportsIEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2020 Yikuan Li Hanyin Wang Yuan Luo 126 73 0 03 Sep 2020
Practical Cross-modal Manifold Alignment for Grounded Language A. Nguyen Luke E. Richards Gaoussou Youssouf Kebe Edward Raff Kasra Darvish Frank Ferraro Cynthia Matuszek 138 4 0 01 Sep 2020
Active Contrastive Learning of Audio-Visual Video Representations Shuang Ma Zhaoyang Zeng Daniel J. McDuff Yale Song VLM SSL 160 9 0 31 Aug 2020
A Survey of Visual Analytics Techniques for Machine Learning Jun Yuan Changjian Chen Weikai Yang Mengchen Liu Jiazhi Xia Shixia Liu 278 254 0 21 Aug 2020
Linguistically-aware Attention for Reducing the Semantic-Gap in Vision-Language Tasks K. Gouthaman Athira M. Nambiar K. Srinivas Anurag Mittal VLM 225 14 0 18 Aug 2020
DeVLBert: Learning Deconfounded Visio-Linguistic Representations Shengyu Zhang Tan Jiang Tan Wang Kun Kuang Zhou Zhao Jianke Zhu Jin Yu Hongxia Yang Leilei Gan OOD 175 93 0 16 Aug 2020
Poet: Product-oriented Video Captioner for E-commerce Shengyu Zhang Ziqi Tan Jin Yu Zhou Zhao Kun Kuang Jie Liu Jingren Zhou Hongxia Yang Leilei Gan 156 37 0 16 Aug 2020
Jointly Fine-Tuning "BERT-like" Self Supervised Models to Improve Multimodal Speech Emotion Recognition Shamane Siriwardhana Andrew Reis Rivindu Weerasekera Suranga Nanayakkara 192 116 0 15 Aug 2020
Weakly supervised cross-domain alignment with optimal transport Siyang Yuan Ke Bai Liqun Chen Yizhe Zhang Chenyang Tao Chunyuan Li Guoyin Wang Ricardo Henao Lawrence Carin OT 142 7 0 14 Aug 2020
A Machine of Few Words -- Interactive Speaker Recognition with Reinforcement LearningInterspeech (Interspeech), 2020 Mathieu Seurin Florian Strub Philippe Preux Olivier Pietquin 114 5 0 07 Aug 2020
Polysemy Deciphering Network for Robust Human-Object Interaction DetectionInternational Journal of Computer Vision (IJCV), 2020 Xubin Zhong Changxing Ding X. Qu Dacheng Tao 309 63 0 07 Aug 2020