Simple Baseline for Visual Question Answering

7 December 2015

Papers citing "Simple Baseline for Visual Question Answering"

30 / 30 papers shown

Title
LOVA3: Learning to Visual Question Answering, Asking and Assessment Henry Hengyuan Zhao Pan Zhou Difei Gao Zechen Bai Mike Zheng Shou 77 8 0 21 Feb 2025
EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol 8 6 0 11 May 2023
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models Ali Borji CoGe 10 1 0 28 Jan 2023
After All, Only The Last Neuron Matters: Comparing Multi-modal Fusion Functions for Scene Graph Generation Mohamed Karim Belaid 26 1 0 09 Nov 2020
Dual Encoding for Video Retrieval by Text Jianfeng Dong Xirong Li Chaoxi Xu Xun Yang Gang Yang Xun Wang Meng Wang 19 2 0 10 Sep 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 23 577 0 10 May 2020
Giving Commands to a Self-driving Car: A Multimodal Reasoner for Visual Grounding Thierry Deruyttere Guillem Collell Marie-Francine Moens LRM 11 8 0 19 Mar 2020
Compact Trilinear Interaction for Visual Question Answering Tuong Khanh Long Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang-Dieu Tran 28 59 0 26 Sep 2019
Talk2Car: Taking Control of Your Self-Driving Car Thierry Deruyttere Simon Vandenhende Dusan Grujicic Luc Van Gool Marie-Francine Moens LM&Ro 23 124 0 24 Sep 2019
Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking Tan Wang Xing Xu Yang Yang Alan Hanjalic Heng Tao Shen Jingkuan Song 22 145 0 12 Aug 2019
Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering Peng Gao Zhengkai Jiang Haoxuan You Pan Lu Steven C. H. Hoi Xiaogang Wang Hongsheng Li AIMat 19 362 0 13 Dec 2018
Dual Encoding for Zero-Example Video Retrieval Jianfeng Dong Xirong Li Chaoxi Xu S. Ji Yuan He Gang Yang Xun Wang 24 268 0 17 Sep 2018
Shuffle-Then-Assemble: Learning Object-Agnostic Visual Relationship Features Xu Yang Hanwang Zhang Jianfei Cai 42 74 0 01 Aug 2018
Learning Visual Knowledge Memory Networks for Visual Question Answering Zhou Su Chen Zhu Yinpeng Dong Dongqi Cai Yurong Chen Jianguo Li 29 62 0 13 Jun 2018
Visual Referring Expression Recognition: What Do Systems Actually Learn? Volkan Cirik Louis-Philippe Morency Taylor Berg-Kirkpatrick 24 63 0 30 May 2018
Visual Question Generation as Dual Task of Visual Question Answering Yikang Li Nan Duan Bolei Zhou Xiao Chu Wanli Ouyang Xiaogang Wang 29 165 0 21 Sep 2017
Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering Zhou Yu Jun-chen Yu Jianping Fan Dacheng Tao 41 663 0 04 Aug 2017
Scene Graph Generation from Objects, Phrases and Region Captions Yikang Li Wanli Ouyang Bolei Zhou Kun Wang Xiaogang Wang 21 499 0 31 Jul 2017
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures Fanyi Xiao Leonid Sigal Yong Jae Lee 24 138 0 03 May 2017
An Analysis of Visual Question Answering Algorithms Kushal Kafle Christopher Kanan 19 230 0 28 Mar 2017
Task-driven Visual Saliency and Attention-based Visual Question Answering Yuetan Lin Zhangyang Pang Donghui Wang Yueting Zhuang 27 26 0 22 Feb 2017
Person Search with Natural Language Description Shuang Li Tong Xiao Hongsheng Li Bolei Zhou Dayu Yue Xiaogang Wang 19 385 0 19 Feb 2017
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions Peng Wang Qi Wu Chunhua Shen A. Hengel OOD 18 86 0 16 Dec 2016
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 99 3,116 0 02 Dec 2016
Semantic Regularisation for Recurrent Image Annotation Feng Liu Tao Xiang Timothy M. Hospedales Wankou Yang Changyin Sun 29 103 0 16 Nov 2016
Dual Attention Networks for Multimodal Reasoning and Matching Hyeonseob Nam Jung-Woo Ha Jeonghee Kim 34 664 0 02 Nov 2016
Solving Visual Madlibs with Multiple Cues Tatiana Tommasi Arun Mallya Bryan A. Plummer Svetlana Lazebnik Alexander C. Berg Tamara L. Berg 29 18 0 11 Aug 2016
Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering Arun Mallya Svetlana Lazebnik 33 119 0 16 Apr 2016
Dynamic Memory Networks for Visual and Textual Question Answering Caiming Xiong Stephen Merity R. Socher 20 753 0 04 Mar 2016
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering Huijuan Xu Kate Saenko 22 760 0 17 Nov 2015