Visual Question Answering: A Survey of Methods and Datasets

20 July 2016

Qi Wu

Damien Teney

Peng Wang

Chunhua Shen

A. Dick

A. Hengel

ArXiv PDF HTML

Papers citing "Visual Question Answering: A Survey of Methods and Datasets"

47 / 47 papers shown

Title
Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering Qian Tao Xiaoyang Fan Yong Xu Xingquan Zhu Yufei Tang 45 0 0 22 Jan 2025
IntentTuner: An Interactive Framework for Integrating Human Intents in Fine-tuning Text-to-Image Generative Models Xingchen Zeng Ziyao Gao Yilin Ye Wei Zeng 12 12 0 28 Jan 2024
Multimodality of AI for Education: Towards Artificial General Intelligence Gyeong-Geon Lee Lehong Shi Ehsan Latif Yizhu Gao Arne Bewersdorff ... Zheng Liu Hui Wang Gengchen Mai Tiaming Liu Xiaoming Zhai 22 37 0 10 Dec 2023
Learning Differentiable Logic Programs for Abstract Visual Reasoning Hikaru Shindo Viktor Pfanschilling D. Dhami Kristian Kersting NAI 29 6 0 03 Jul 2023
A Unified Framework for Slot based Response Generation in a Multimodal Dialogue System Mauajama Firdaus Avinash Madasu Asif Ekbal 38 7 0 27 May 2023
Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning Xinyue Hu Lin Gu Kazuma Kobayashi Qi A. An Qingyu Chen Zhiyong Lu Chang Su Tatsuya Harada Yingying Zhu GNN 23 9 0 19 Feb 2023
On The Coherence of Quantitative Evaluation of Visual Explanations Benjamin Vandersmissen José Oramas XAI FAtt 26 3 0 14 Feb 2023
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models Ali Borji CoGe 10 1 0 28 Jan 2023
MapQA: A Dataset for Question Answering on Choropleth Maps Shuaichen Chang David Palzer Jialin Li Eric Fosler-Lussier N. Xiao 19 40 0 15 Nov 2022
Watching the News: Towards VideoQA Models that can Read Soumya Jahagirdar Minesh Mathew Dimosthenis Karatzas C. V. Jawahar 27 18 0 10 Nov 2022
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering Hao Li Jinfa Huang Peng Jin Guoli Song Qi Wu Jie Chen 36 21 0 21 Sep 2022
What is Right for Me is Not Yet Right for You: A Dataset for Grounding Relative Directions via Multi-Task Learning Jae Hee Lee Matthias Kerzel Kyra Ahrens C. Weber S. Wermter 30 9 0 05 May 2022
Attention Mechanism based Cognition-level Scene Understanding Xuejiao Tang Tai Le Quy LRM 30 0 0 17 Apr 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 212 0 18 Feb 2022
Can Open Domain Question Answering Systems Answer Visual Knowledge Questions? Jiawen Zhang Abhijit Mishra Avinesh P.V.S Siddharth Patwardhan Sachin Agarwal 24 0 0 09 Feb 2022
Grounding Answers for Visual Questions Asked by Visually Impaired People Chongyan Chen Samreen Anjum Danna Gurari 23 50 0 04 Feb 2022
SA-VQA: Structured Alignment of Visual and Semantic Representations for Visual Question Answering Peixi Xiong Quanzeng You Pei Yu Zicheng Liu Ying Wu 16 5 0 25 Jan 2022
Question Answering Survey: Directions, Challenges, Datasets, Evaluation Matrices Hariom A. Pandya Brijesh S. Bhatt 40 27 0 07 Dec 2021
Visual Question Answering based on Formal Logic Muralikrishnna G. Sethuraman Ali Payani Faramarz Fekri J. C. Kerce NAI 16 3 0 08 Nov 2021
On the Significance of Question Encoder Sequence Model in the Out-of-Distribution Performance in Visual Question Answering K. Gouthaman Anurag Mittal CML 39 0 0 28 Aug 2021
A Review on Explainability in Multimodal Deep Neural Nets Gargi Joshi Rahee Walambe K. Kotecha 23 137 0 17 May 2021
RotLSTM: Rotating Memories in Recurrent Neural Networks Vlad Velici Adam Prugel-Bennett RALM VLM 17 1 0 01 May 2021
Biomedical Question Answering: A Survey of Approaches and Challenges Qiao Jin Zheng Yuan Guangzhi Xiong Qian Yu Huaiyuan Ying Chuanqi Tan Mosha Chen Songfang Huang Xiaozhong Liu Sheng Yu 21 95 0 10 Feb 2021
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach Y. Liu Yangyang Guo Jianhua Yin Xuemeng Song Weifeng Liu Liqiang Nie 24 28 0 03 Feb 2021
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei-Neng Chen Weiping Wang Li Liu M. Lew VLM 112 31 0 16 Oct 2020
Referring Expression Comprehension: A Survey of Methods and Datasets Yanyuan Qiao Chaorui Deng Qi Wu ObjD 47 93 0 19 Jul 2020
On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering Xinyu Wang Yuliang Liu Chunhua Shen Chun Chet Ng Canjie Luo Lianwen Jin C. Chan A. Hengel Liangwei Wang 31 91 0 24 Feb 2020
A Review on Intelligent Object Perception Methods Combining Knowledge-based Reasoning and Machine Learning Filippos Gouidis Alexandros Vassiliades T. Patkos Antonis Argyros Nick Bassiliades Dimitris Plexousakis OCL 29 12 0 26 Dec 2019
Towards Causal VQA: Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing Vedika Agarwal Rakshith Shetty Mario Fritz CML AAML 21 155 0 16 Dec 2019
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering Cheng Zhang Wei-Lun Chao D. Xuan 23 50 0 28 Jul 2019
Adversarial Multimodal Network for Movie Question Answering Zhaoquan Yuan Siyuan Sun Lixin Duan Xiao Wu Changsheng Xu 19 3 0 24 Jun 2019
BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions Christopher Clark Kenton Lee Ming-Wei Chang Tom Kwiatkowski Michael Collins Kristina Toutanova 47 1,388 0 24 May 2019
Show, Price and Negotiate: A Negotiator with Online Value Look-Ahead Amin Parvaneh Ehsan Abbasnejad Qi Wu Javen Qinfeng Shi Anton van den Hengel OffRL 19 5 0 07 May 2019
Answer Them All! Toward Universal Visual Question Answering Models Robik Shrestha Kushal Kafle Christopher Kanan 17 82 0 01 Mar 2019
Visual Entailment: A Novel Task for Fine-Grained Image Understanding Ning Xie Farley Lai Derek Doran Asim Kadav CoGe 31 321 0 20 Jan 2019
Object Relation Detection Based on One-shot Learning Li Zhou Jian-jun Zhao Jianshu Li Li-xin Yuan Jiashi Feng ObjD 14 23 0 16 Jul 2018
Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition Guojun Yin Lu Sheng Bin Liu Nenghai Yu Xiaogang Wang Jing Shao Chen Change Loy ObjD 24 156 0 13 Jul 2018
Learning Conditioned Graph Structures for Interpretable Visual Question Answering Will Norcliffe-Brown Efstathios Vafeias Sarah Parisot GNN 13 236 0 19 Jun 2018
Multimodal Grounding for Language Processing Lisa Beinborn Teresa Botschen Iryna Gurevych 14 32 0 17 Jun 2018
DVQA: Understanding Data Visualizations via Question Answering Kushal Kafle Brian L. Price Scott D. Cohen Christopher Kanan AIMat 33 363 0 24 Jan 2018
Incorporating External Knowledge to Answer Open-Domain Visual Questions with Dynamic Memory Networks Guohao Li Hang Su Wenwu Zhu 28 46 0 03 Dec 2017
Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge Damien Teney Peter Anderson Xiaodong He A. Hengel 45 380 0 09 Aug 2017
Being Negative but Constructively: Lessons Learnt from Creating Better Visual Question Answering Datasets Wei-Lun Chao Hexiang Hu Fei Sha 22 37 0 24 Apr 2017
Detecting Visual Relationships with Deep Relational Networks Bo Dai Yuqi Zhang Dahua Lin GNN 34 499 0 11 Apr 2017
An Analysis of Visual Question Answering Algorithms Kushal Kafle Christopher Kanan 21 230 0 28 Mar 2017
The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions Peng Wang Qi Wu Chunhua Shen A. Hengel OOD 18 86 0 16 Dec 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 152 1,465 0 06 Jun 2016