v1v2v3v4 (latest)

FVQA: Fact-based Visual Question Answering

17 June 2016

Peng Wang

Qi Wu

Chunhua Shen

Papers citing "FVQA: Fact-based Visual Question Answering"

50 / 241 papers shown

SnapNTell: Enhancing Entity-Centric Visual Question Answering with Retrieval Augmented Multimodal LLMConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Andrea Madotto

Babak Damavandi

229

07 Mar 2024

CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially Observable Environments

Savitha Sam Abraham

Marjan Alirezaie

Luc de Raedt

285

05 Mar 2024

Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment

Baotian Hu

184

21 Feb 2024

ConVQG: Contrastive Visual Question Generation with Multimodal Guidance

177

20 Feb 2024

Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering

Daochen Zha

231

20 Feb 2024

AI, Meet Human: Learning Paradigms for Hybrid Decision Making Systems

389

09 Feb 2024

Knowledge Generation for Zero-shot Knowledge-based VQA

Rui Cao

Jing Jiang

129

04 Feb 2024

GeReA: Question-Aware Prompt Captions for Knowledge-based Visual Question Answering

259

04 Feb 2024

Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge

Haibi Wang

Weifeng Ge

LRM

443

19 Jan 2024

BOK-VQA: Bilingual outside Knowledge-Based Visual Question Answering via Graph Representation PretrainingAAAI Conference on Artificial Intelligence (AAAI), 2024

207

12 Jan 2024

Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual Question Answering

186

20 Dec 2023

A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering

Baotian Hu

Chenyang Lyu

Min Zhang

208

13 Nov 2023

Knowledgeable Preference Alignment for LLMs in Domain-specific Question AnsweringAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

347

11 Nov 2023

From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and OpportunitiesInformation Fusion (Inf. Fusion), 2023

Md Farhan Ishmam

Md Sakib Hossain Shovon

M. F. Mridha

Nilanjan Dey

402

01 Nov 2023

A Simple Baseline for Knowledge-Based Visual Question Answering

Alexandros Xenos

Themos Stafylakis

Ioannis Patras

Georgios Tzimiropoulos

348

20 Oct 2023

UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large ModelsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

395

17 Oct 2023

Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question AnsweringNeural Information Processing Systems (NeurIPS), 2023

280

29 Sep 2023

A Survey on Interpretable Cross-modal Reasoning

400

05 Sep 2023

CoTDet: Affordance Knowledge Prompting for Task Driven Object DetectionIEEE International Conference on Computer Vision (ICCV), 2023

Jingyi Yu

221

03 Sep 2023

Diagnosing Human-object Interaction DetectorsInternational Journal of Computer Vision (IJCV), 2023

218

16 Aug 2023

Robust Visual Question Answering: Datasets, Methods, and Future ChallengesIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Pinghui Wang

Jun Liu

333

21 Jul 2023

Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question AnsweringInternational Conference on the Theory of Information Retrieval (ICTIR), 2023

Alireza Salemi

Mahta Rafiee

Hamed Zamani

173

28 Jun 2023

Encyclopedic VQA: Visual questions about detailed properties of fine-grained categoriesIEEE International Conference on Computer Vision (ICCV), 2023

281

15 Jun 2023

AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn

422

108

14 Jun 2023

End-to-end Knowledge Retrieval with Multi-modal QueriesAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Yezhou Yang

226

01 Jun 2023

Generate then Select: Open-ended Visual Question Answering Guided by World KnowledgeAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

...

198

30 May 2023

KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

217

28 May 2023

i-Code Studio: A Configurable and Composable Framework for Integrative AIConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

...

Lu Yuan

185

23 May 2023

Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature

Ana Claudia Akemi Matsuki de Faria

Felype de Castro Bastos

Jose Victor Nogueira Alves da Silva

Vitor Lopes Fabris

Valeska Uchôa

Décio Gonccalves de Aguiar Neto

C. F. G. Santos

264

18 May 2023

Combo of Thinking and Observing for Outside-Knowledge VQAAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Zheng Lin

181

10 May 2023

NeuroComparatives: Neuro-Symbolic Distillation of Comparative Knowledge

Yejin Choi

185

08 May 2023

Visual Reasoning: from State to TransformationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

175

02 May 2023

A Symmetric Dual Encoding Dense Retrieval Framework for Knowledge-Intensive Visual Question AnsweringAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2023

Alireza Salemi

Juan Altmayer Pizzorno

Hamed Zamani

132

26 Apr 2023

FVQA 2.0: Introducing Adversarial Samples into Fact-based Visual Question AnsweringFindings (Findings), 2023

191

19 Mar 2023

Graph Neural Networks in Vision-Language Image Understanding: A SurveyThe Visual Computer (TVC), 2023

323

07 Mar 2023

VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media ReasoningComputer Vision and Pattern Recognition (CVPR), 2023

Kan Chen

Xiangqian Wu

CoGe

167

05 Mar 2023

The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges

Maria Lymperaiou

Giorgos Stamou

VLM

236

04 Mar 2023

Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question AnsweringIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

450

03 Mar 2023

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

614

150

23 Feb 2023

Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A SurveyArtificial Intelligence Review (AIR), 2023

Zhang Li

686

21 Feb 2023

Large-scale Multi-Modal Pre-trained Models: A Comprehensive SurveyMachine Intelligence Research (MIR), 2023

Yaowei Wang

Yonghong Tian

Wen Gao

AI4CE VLM

477

272

20 Feb 2023

Benchmarks for Automated Commonsense Reasoning: A SurveyACM Computing Surveys (ACM Comput. Surv.), 2023

E. Davis

ELM LRM

299

09 Feb 2023

BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models

Ali Borji

CoGe

140

28 Jan 2023

See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning

Chuang Gan

275

12 Jan 2023

VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges

Zaharaddeen Karami Lawal

Yue-hong Dong

LRM

183

26 Dec 2022

REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge MemoryComputer Vision and Pattern Recognition (CVPR), 2022

345

139

10 Dec 2022

Improving Commonsense in Vision-Language Models via Knowledge Graph RiddlesComputer Vision and Pattern Recognition (CVPR), 2022

Lu Yuan

136

29 Nov 2022

A survey on knowledge-enhanced multimodal learningArtificial Intelligence Review (Artif Intell Rev), 2022

Maria Lymperaiou

Giorgos Stamou

475

19 Nov 2022

Towards Reasoning-Aware Explainable VQA

Govind Thattai

202

09 Nov 2022

VLC-BERT: Visual Question Answering with Contextualized Commonsense KnowledgeIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

150

24 Oct 2022