v1v2 (latest)

Fusion of Detected Objects in Text for Visual Question Answering

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2019

14 August 2019

ArXiv (abs)PDF HTML Github (1675★)

Papers citing "Fusion of Detected Objects in Text for Visual Question Answering"

50 / 109 papers shown

Multi-stage Pre-training over Simplified Multimodal Pre-training ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Tongtong Liu

Fangxiang Feng

Caixia Yuan

22 Jul 2021

Productivity, Portability, Performance: Data-Centric Python

423

116

01 Jul 2021

Pre-Trained Models: Past, Present and FutureAI Open (AO), 2021

Xu Han

Zhengyan Zhang

Ning Ding

Yuxian Gu

Xiao Liu

...

Jun Zhu

410

1,015

14 Jun 2021

MERLOT: Multimodal Neural Script Knowledge ModelsNeural Information Processing Systems (NeurIPS), 2021

Yejin Choi

450

436

04 Jun 2021

PIGLeT: Language Grounding Through Neuro-Symbolic Interaction in a 3D WorldAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

Yejin Choi

328

01 Jun 2021

Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation

Rui Yan

Jiwei Li

238

30 May 2021

A Review on Explainability in Multimodal Deep Neural NetsIEEE Access (IEEE Access), 2021

Gargi Joshi

Rahee Walambe

K. Kotecha

448

176

17 May 2021

Recent Advances in Deep Learning Based Dialogue Systems: A Systematic SurveyArtificial Intelligence Review (AIR), 2021

905

329

10 May 2021

Detector-Free Weakly Supervised Grounding by SeparationIEEE International Conference on Computer Vision (ICCV), 2021

...

201

20 Apr 2021

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation LearningComputer Vision and Pattern Recognition (CVPR), 2021

515

304

07 Apr 2021

Kaleido-BERT: Vision-Language Pre-training on Fashion DomainComputer Vision and Pattern Recognition (CVPR), 2021

384

137

30 Mar 2021

Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and VisionInternational Journal of Computer Vision (IJCV), 2021

Andrew Shin

Masato Ishii

T. Narihira

327

06 Mar 2021

WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine LearningAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2021

562

399

02 Mar 2021

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual ConceptsComputer Vision and Pattern Recognition (CVPR), 2021

1.2K

1,412

17 Feb 2021

Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge

217

15 Jan 2021

Transformers in Vision: A SurveyACM Computing Surveys (CSUR), 2021

Salman Khan

1.0K

3,298

04 Jan 2021

OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts

Rui Yan

Jiwei Li

410

30 Dec 2020

ActionBert: Leveraging User Actions for Semantic Understanding of User InterfacesAAAI Conference on Artificial Intelligence (AAAI), 2020

Blaise Agüera y Arcas

316

22 Dec 2020

KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQAComputer Vision and Pattern Recognition (CVPR), 2020

Devi Parikh

282

235

20 Dec 2020

A Closer Look at the Robustness of Vision-and-Language Pre-trained Models

313

15 Dec 2020

KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual Commonsense ReasoningKnowledge-Based Systems (KBS), 2020

Dandan Song

276

13 Dec 2020

TAP: Text-Aware Pre-training for Text-VQA and Text-Caption

Lei Zhang

274

160

08 Dec 2020

Parameter Efficient Multimodal Transformers for Video Representation Learning

340

08 Dec 2020

Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation

Yejin Choi

230

08 Dec 2020

Classification of Multimodal Hate Speech -- The Winning Solution of Hateful Memes Challenge

Xiayu Zhong

162

02 Dec 2020

Improving Calibration in Deep Metric Learning With Cross-Example Softmax

Andreas Veit

Kimberly Wilber

17 Nov 2020

Human-centric Spatio-Temporal Video Grounding With Visual Transformers

Zongheng Tang

289

133

10 Nov 2020

MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question AnsweringFindings (Findings), 2020

225

27 Oct 2020

Multimodal Research in Vision and Language: A Review of Current and Emerging Trends

Roger Zimmermann

324

19 Oct 2020

Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

188

16 Oct 2020

Beyond Language: Learning Commonsense from Images for ReasoningFindings (Findings), 2020

Liang Pang

166

10 Oct 2020

X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal TransformersConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

245

106

23 Sep 2020

A Multimodal Memes Classification: A Survey and Open Research Issues

281

17 Sep 2020

Modality-Agnostic Attention Fusion for visual search with text feedback

277

30 Jun 2020

Video-Grounded Dialogues with Pretrained Generation Language Models

Hung Le

Guosheng Lin

275

27 Jun 2020

Contrastive Learning for Weakly Supervised Phrase Grounding

367

157

17 Jun 2020

Large-Scale Adversarial Training for Vision-and-Language Representation LearningNeural Information Processing Systems (NeurIPS), 2020

387

541

11 Jun 2020

Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

289

140

15 May 2020

Visuo-Linguistic Question Answering (VLQA) Challenge

Shailaja Keyur Sampat

Yezhou Yang

Chitta Baral

CoGe

151

01 May 2020

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-trainingConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

732

545

01 May 2020

VD-BERT: A Unified Vision and Dialog Transformer with BERTConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Yue Wang

Shafiq Joty

Michael R. Lyu

Irwin King

Caiming Xiong

Guosheng Lin

409

109

28 Apr 2020

Are we pretraining it right? Digging deeper into visio-linguistic pretraining

Amanpreet Singh

Vedanuj Goswami

Devi Parikh

VLM

153

19 Apr 2020

Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

458

469

02 Apr 2020

Pre-trained Models for Natural Language Processing: A SurveyScience China Technological Sciences (Sci China Technol Sci), 2020

Xipeng Qiu

Tianxiang Sun

Xuanjing Huang

1.2K

1,644

18 Mar 2020

XGPT: Cross-modal Generative Pre-Training for Image CaptioningNatural Language Processing and Chinese Computing (NLPCC), 2020

Zhifang Sui

259

03 Mar 2020

What BERT Sees: Cross-Modal Transfer for Visual Question Generation

265

25 Feb 2020

ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

445

276

22 Jan 2020

DMRM: A Dual-channel Multi-hop Reasoning Model for Visual DialogAAAI Conference on Artificial Intelligence (AAAI), 2019

Feilong Chen

Fandong Meng

Jiaming Xu

Peng Li

Bo Xu

Jie Zhou

196

18 Dec 2019

12-in-1: Multi-Task Vision and Language Representation LearningComputer Vision and Pattern Recognition (CVPR), 2019

Devi Parikh

381

503

05 Dec 2019

Learning to Learn Words from Visual Scenes

Heng Ji

Carl Vondrick

202

25 Nov 2019