Multimodal Unified Attention Networks for Vision-and-Language Interactions

12 August 2019

Papers citing "Multimodal Unified Attention Networks for Vision-and-Language Interactions"

5 / 5 papers shown

Title
EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol 8 6 0 11 May 2023
A Multimodal Target-Source Classifier with Attention Branches to Understand Ambiguous Instructions for Fetching Daily Objects A. Magassouba K. Sugiura Hisashi Kawai 33 9 0 23 Dec 2019
LXMERT: Learning Cross-Modality Encoder Representations from Transformers Hao Hao Tan Mohit Bansal VLM MLLM 55 2,447 0 20 Aug 2019
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 144 1,465 0 06 Jun 2016
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 214 7,923 0 17 Aug 2015