KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA

20 December 2020

Devi Parikh

Papers citing "KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA"

33 / 33 papers shown

Title
FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA S M Sarwar 66 1 0 25 Feb 2025
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering Zeqing Wang Wentao Wan Qiqing Lao Runmeng Chen Minjie Lang Keze Wang Liang Lin Liang Lin LRM 101 3 0 17 Feb 2025
Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering Dongze Hao Qunbo Wang Longteng Guo Jie Jiang Jing Liu 36 0 0 22 Apr 2024
Improving deep learning with prior knowledge and cognitive models: A survey on enhancing explainability, adversarial robustness and zero-shot learning F. Mumuni A. Mumuni AAML 31 5 0 11 Mar 2024
Convincing Rationales for Visual Question Answering Reasoning Kun Li G. Vosselman Michael Ying Yang 34 1 0 06 Feb 2024
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) Zongxin Yang Guikun Chen Xiaodi Li Wenguan Wang Yi Yang LM&Ro LLMAG 48 35 0 16 Jan 2024
Domain Adaptation for Large-Vocabulary Object Detectors Kai Jiang Jiaxing Huang Weiying Xie Jie Lei Yunsong Li Ling Shao Shijian Lu ObjD VLM 32 2 0 13 Jan 2024
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training Cheng Tan Jingxuan Wei Zhangyang Gao Linzhuang Sun Siyuan Li Ruifeng Guo Xihong Yang Stan Z. Li LRM 16 7 0 23 Nov 2023
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions Ziyue Wang Chi Chen Peng Li Yang Janet Liu LRM 15 14 0 20 Nov 2023
Neural-Logic Human-Object Interaction Detection Liulei Li Jianan Wei Wenguan Wang Yi Yang 29 16 0 16 Nov 2023
Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models Baoshuo Kan Teng Wang Wenpeng Lu Xiantong Zhen Weili Guan Feng Zheng VPVLM VLM 19 25 0 22 Aug 2023
Combo of Thinking and Observing for Outside-Knowledge VQA Q. Si Yuchen Mo Zheng Lin Huishan Ji Weiping Wang 38 13 0 10 May 2023
The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges Maria Lymperaiou Giorgos Stamou VLM 24 4 0 04 Mar 2023
Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering Zhou Yu Xuecheng Ouyang Zhenwei Shao Mei Wang Jun Yu MLLM 89 11 0 03 Mar 2023
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? Yang Chen Hexiang Hu Yi Luan Haitian Sun Soravit Changpinyo Alan Ritter Ming-Wei Chang 37 80 0 23 Feb 2023
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning Zhenfang Chen Qinhong Zhou Yikang Shen Yining Hong Hao Zhang Chuang Gan LRM VLM 31 35 0 12 Jan 2023
Knowledge-augmented Deep Learning and Its Applications: A Survey Zijun Cui Tian Gao Kartik Talamadupula Qiang Ji 19 17 0 30 Nov 2022
PromptCap: Prompt-Guided Task-Aware Image Captioning Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A. Smith Jiebo Luo 38 101 0 15 Nov 2022
Neuro-Symbolic Learning: Principles and Applications in Ophthalmology Muhammad Hassan Haifei Guan Aikaterini Melliou Yuqi Wang Qianhui Sun ... Qi Huang Jiefu Tan Qinwang Xing Peiwu Qin Dongmei Yu NAI 29 14 0 31 Jul 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 41 525 0 13 Jun 2022
Language Models are General-Purpose Interfaces Y. Hao Haoyu Song Li Dong Shaohan Huang Zewen Chi Wenhui Wang Shuming Ma Furu Wei MLLM 19 95 0 13 Jun 2022
REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan 38 71 0 02 Jun 2022
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering Yanan Wang Michihiro Yasunaga Hongyu Ren Shinya Wada J. Leskovec 21 17 0 23 May 2022
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering Yang Ding Jing Yu Bangchang Liu Yue Hu Mingxin Cui Qi Wu 11 62 0 17 Mar 2022
Multi-Modal Knowledge Graph Construction and Application: A Survey Xiangru Zhu Zhixu Li Xiaodan Wang Xueyao Jiang Penglei Sun Xuwu Wang Yanghua Xiao N. Yuan 23 154 0 11 Feb 2022
Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering Ander Salaberria Gorka Azkune Oier López de Lacalle Aitor Soroa Etxabe Eneko Agirre 22 59 0 15 Sep 2021
A Review of Some Techniques for Inclusion of Domain-Knowledge into Deep Neural Networks T. Dash Sharad Chitlangia Aditya Ahuja A. Srinivasan 22 128 0 21 Jul 2021
Equalization Loss for Long-Tailed Object Recognition Jingru Tan Changbao Wang Buyu Li Quanquan Li Wanli Ouyang Changqing Yin Junjie Yan 239 456 0 11 Mar 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 927 0 24 Sep 2019
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 408 2,584 0 03 Sep 2019
Iterative Visual Reasoning Beyond Convolutions Xinlei Chen Li-Jia Li Li Fei-Fei Abhinav Gupta LRM GNN 29 212 0 29 Mar 2018
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,740 0 26 Sep 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 147 1,465 0 06 Jun 2016