v1v2v3v4 (latest)

FVQA: Fact-based Visual Question Answering

17 June 2016

Peng Wang

Qi Wu

Chunhua Shen

Papers citing "FVQA: Fact-based Visual Question Answering"

50 / 241 papers shown

CauSight: Learning to Supersense for Visual Causal Discovery

Yize Zhang

181

01 Dec 2025

Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

168

28 Nov 2025

Revisiting KRISP: A Lightweight Reproduction and Analysis of Knowledge-Enhanced Vision-Language Models

203

25 Nov 2025

Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

337

11 Nov 2025

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

263

16 Oct 2025

StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering

226

08 Oct 2025

Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards

214

23 Sep 2025

NLKI: A lightweight Natural Language Knowledge Integration Framework for Improving Small VLMs in Commonsense VQA Tasks

136

27 Aug 2025

Explain Before You Answer: A Survey on Compositional Visual Reasoning

...

407

24 Aug 2025

Efficient Agent: Optimizing Planning Capability for Multimodal Retrieval Augmented Generation

109

12 Aug 2025

ViFP: A Framework for Visual False Positive Detection to Enhance Reasoning Reliability in VLMs

245

06 Aug 2025

Detecting Visual Information Manipulation Attacks in Augmented Reality: A Multimodal Semantic Reasoning ApproachIEEE Transactions on Visualization and Computer Graphics (TVCG), 2025

Yanming Xiu

M. Gorlatova

488

27 Jul 2025

Augmented Vision-Language Models: A Systematic Review

222

24 Jul 2025

ReasonVQA: A Multi-hop Reasoning Benchmark with Structural Knowledge for Visual Question Answering

291

22 Jul 2025

Outside Knowledge Conversational Video (OKCV) Dataset -- Dialoguing over Videos

246

11 Jun 2025

mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs

239

16 May 2025

A Survey of Task-Oriented Knowledge Graph Reasoning: Status, Applications, and Prospects

329

27 Apr 2025

Seeking and Updating with Live Visual Knowledge

330

07 Apr 2025

Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models

...

281

24 Mar 2025

Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning

478

17 Mar 2025

Abduction of Domain Relationships from Data for VQAInternational Conference on Logic Programming (ICLP), 2025

Al Mehdi Saadat Chowdhury

Paulo Shakarian

Gerardo Simari

340

13 Feb 2025

Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering

284

22 Jan 2025

A Comprehensive Survey on Visual Question Answering Datasets and Algorithms

321

17 Nov 2024

SimpsonsVQA: Enhancing Inquiry-Based Learning with a Tailored Dataset

Ngoc Dung Huynh

Mohamed Reda Bouadjenek

Sunil Aryal

Imran Razzak

Hakim Hacid

263

30 Oct 2024

Improving Generalization in Visual Reasoning via Self-Ensemble

362

28 Oct 2024

Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal AssistantConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

A. S. Penamakuri

Anand Mishra

392

24 Oct 2024

ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions

Shailaja Keyur Sampat

Yezhou Yang

Chitta Baral

LM&Ro

257

17 Oct 2024

MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic ModelingComputer Vision and Pattern Recognition (CVPR), 2024

403

14 Oct 2024

ECIS-VQG: Generation of Entity-centric Information-seeking Questions from VideosConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

228

13 Oct 2024

ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital EnvironmentsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

192

08 Oct 2024

What Makes a Maze Look Like a Maze?International Conference on Learning Representations (ICLR), 2024

577

12 Sep 2024

A Survey on Evaluation of Multimodal Large Language Models

Jiaxing Huang

Jingyi Zhang

LM&MA ELM LRM

381

28 Aug 2024

IIU: Independent Inference Units for Knowledge-based Visual Question AnsweringKnowledge Science, Engineering and Management (KSEM), 2024

Yili Li

Jing Yu

Keke Gai

Gang Xiong

228

15 Aug 2024

Towards Flexible Evaluation for Generative Visual Question AnsweringACM Multimedia (MM), 2024

Huishan Ji

Q. Si

Zheng Lin

Weiping Wang

272

01 Aug 2024

Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

439

17 Jul 2024

Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference

Kai Shen

Yueting Zhuang

252

06 Jul 2024

CELLO: Causal Evaluation of Large Vision-Language Models

296

27 Jun 2024

Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA

Elham J. Barezi

Parisa Kordjamshidi

CoGe

207

27 Jun 2024

StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images

Rushikesh Zawar

Shaurya Dewan

Andrew F. Luo

Margaret M. Henderson

Michael J. Tarr

Leila Wehbe

VGen CoGe

223

19 Jun 2024

Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language ModelsICON (ICON), 2024

Manas Jhalani

Annervaz K M

Pushpak Bhattacharyya

163

14 Jun 2024

VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded TextInternational Conference on Learning Representations (ICLR), 2024

Tianyu Zhang

Ge Zhang

337

10 Jun 2024

Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment

Wenliang Zhong

Rob Barton

283

05 Jun 2024

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World KnowledgeComputer Vision and Pattern Recognition (CVPR), 2024

Chuang Gan

325

15 May 2024

Knowledge-aware Text-Image Retrieval for Remote Sensing ImagesIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024

220

06 May 2024

Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering

Jing Liu

382

22 Apr 2024

Find The Gap: Knowledge Base Reasoning For Visual Question Answering

Elham J. Barezi

Parisa Kordjamshidi

259

16 Apr 2024

Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective

593

27 Mar 2024

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

948

847

21 Mar 2024

Knowledge Condensation and Reasoning for Knowledge-based VQA

...

228

15 Mar 2024

Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Xiaodan Liang

299

09 Mar 2024