An Analysis of Visual Question Answering Algorithms

28 March 2017

Papers citing "An Analysis of Visual Question Answering Algorithms"

21 / 21 papers shown

Title
Conditional Temporal Neural Processes with Covariance Loss Boseon Yoo Jiwoo Lee Janghoon Ju Seijun Chung Soyeon Kim Jaesik Choi 56 15 0 01 Apr 2025
FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA S M Sarwar 66 1 0 25 Feb 2025
Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and Inference Siyuan Wang Dianyi Wang Chengxing Zhou Zejun Li Zhihao Fan Xuanjing Huang Zhongyu Wei VLM 87 0 0 17 Dec 2024
QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems Zhixian He Pengcheng Zhao Fuwei Zhang Shujin Lin 31 0 0 14 Sep 2024
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions Junzhang Liu Zhecan Wang Hammad A. Ayyubi Haoxuan You Chris Thomas Rui Sun Shih-Fu Chang Kai-Wei Chang 18 0 0 18 May 2024
Hallucination of Multimodal Large Language Models: A Survey Zechen Bai Pichao Wang Tianjun Xiao Tong He Zongbo Han Zheng Zhang Mike Zheng Shou VLM LRM 71 136 0 29 Apr 2024
Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models Jesse Atuhurra Iqra Ali Tatsuya Hiraoka Hidetaka Kamigaito Tomoya Iwakura Taro Watanabe 38 1 0 29 Mar 2024
Dolphins: Multimodal Language Model for Driving Yingzi Ma Yulong Cao Jiachen Sun Marco Pavone Chaowei Xiao MLLM 21 49 0 01 Dec 2023
An Examination of the Robustness of Reference-Free Image Captioning Evaluation Metrics Saba Ahmadi Aishwarya Agrawal 17 6 0 24 May 2023
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning Q. Si Yuanxin Liu Fandong Meng Zheng Lin Peng Fu Yanan Cao Weiping Wang Jie Zhou 24 23 0 10 Oct 2022
All You May Need for VQA are Image Captions Soravit Changpinyo Doron Kukliansky Idan Szpektor Xi Chen Nan Ding Radu Soricut 24 70 0 04 May 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 79 208 0 18 Feb 2022
Grounding Answers for Visual Questions Asked by Visually Impaired People Chongyan Chen Samreen Anjum Danna Gurari 20 50 0 04 Feb 2022
Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in Visual Question Answering Corentin Dancette Rémi Cadène Damien Teney Matthieu Cord CML 19 74 0 07 Apr 2021
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models M. Farazi Salman H. Khan Nick Barnes 19 18 0 20 Jan 2020
REMIND Your Neural Network to Prevent Catastrophic Forgetting Tyler L. Hayes Kushal Kafle Robik Shrestha Manoj Acharya Christopher Kanan CLL 12 291 0 06 Oct 2019
Explicit Bias Discovery in Visual Question Answering Models Varun Manjunatha Nirat Saini L. Davis CML FAtt 13 92 0 19 Nov 2018
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization S. Ramakrishnan Aishwarya Agrawal Stefan Lee AAML 15 232 0 08 Oct 2018
Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering Aishwarya Agrawal Dhruv Batra Devi Parikh Aniruddha Kembhavi OOD 30 572 0 01 Dec 2017
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 49 3,086 0 02 Dec 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 141 1,458 0 06 Jun 2016