v1v2v3 (latest)

Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering

15 September 2021

Ander Salaberria

Gorka Azkune

Oier López de Lacalle

Aitor Soroa Etxabe

Eneko Agirre

ArXiv (abs)PDF HTML

Papers citing "Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering"

20 / 20 papers shown

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

357

25 Nov 2025

Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks

Mohammad Saleha

Azadeh Tabatabaeib

700

14 Apr 2025

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

634

13 Mar 2025

An Enhanced Large Language Model For Cross Modal Query Understanding System Using DL-KeyBERT Based CAZSSCL-MPGPT

Shreya Singh

348

24 Feb 2025

MageBench: Bridging Large Multimodal Models to Agents

237

05 Dec 2024

IIU: Independent Inference Units for Knowledge-based Visual Question AnsweringKnowledge Science, Engineering and Management (KSEM), 2024

Yili Li

Jing Yu

Keke Gai

Gang Xiong

223

15 Aug 2024

GP-VLS: A general-purpose vision language model for surgery

400

27 Jul 2024

A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming

Lin Wang

297

30 Jan 2024

Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models

460

21 Nov 2023

Tackling Vision Language Tasks Through Learning Inner MonologuesAAAI Conference on Artificial Intelligence (AAAI), 2023

Jie Yang

254

19 Aug 2023

Using Visual Cropping to Enhance Fine-Detail Question Answering of BLIP-Family Models

174

31 May 2023

Generate then Select: Open-ended Visual Question Answering Guided by World KnowledgeAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

...

241

30 May 2023

A Symmetric Dual Encoding Dense Retrieval Framework for Knowledge-Intensive Visual Question AnsweringAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2023

Alireza Salemi

Juan Altmayer Pizzorno

Hamed Zamani

166

26 Apr 2023

The Contribution of Knowledge in Visiolinguistic Learning: A Survey on Tasks and Challenges

Maria Lymperaiou

Giorgos Stamou

VLM

314

04 Mar 2023

A survey on knowledge-enhanced multimodal learningArtificial Intelligence Review (Artif Intell Rev), 2022

Maria Lymperaiou

Giorgos Stamou

543

19 Nov 2022

Visual Commonsense-aware Representation Network for Video CaptioningIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022

Pengpeng Zeng

Haonan Zhang

Lianli Gao

Xiangpeng Li

Jin Qian

Hengtao Shen

194

17 Nov 2022

VLC-BERT: Visual Question Answering with Contextualized Commonsense KnowledgeIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

215

24 Oct 2022

LaKo: Knowledge-driven Visual Question Answering via Late Knowledge-to-Text Injection

Ningyu Zhang

263

26 Jul 2022

Modular and Parameter-Efficient Multimodal Fusion with PromptingFindings (Findings), 2022

Sheng Liang

Mengjie Zhao

Hinrich Schütze

199

15 Mar 2022

A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering

Govind Thattai

193

14 Jan 2022