v1v2 (latest)

VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering

IEEE International Conference on Computer Vision (ICCV), 2022

23 May 2022

Papers citing "VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering"

15 / 15 papers shown

SLIP: Structural-aware Language-Image Pretraining for Vision-Language Alignment

Wenbo Lu

CLIP VLM

201

04 Nov 2025

Causal Debiasing for Visual Commonsense ReasoningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

135

23 Oct 2025

Query-Specific GNN: A Comprehensive Graph Representation Learning Method for Retrieval Augmented Generation

108

13 Oct 2025

EyePCR: A Comprehensive Benchmark for Fine-Grained Perception, Knowledge Comprehension and Clinical Reasoning in Ophthalmic Surgery

178

19 Sep 2025

FlexMUSE: Multimodal Unification and Semantics Enhancement Framework with Flexible interaction for Creative Writing

22 Aug 2025

MissionHD: Hyperdimensional Refinement of Distribution-Deficient Reasoning Graphs for Video Anomaly Detection

200

20 Aug 2025

Augmented Vision-Language Models: A Systematic Review

196

24 Jul 2025

DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis

Efthymios Georgiou

Vassilis Katsouros

Yannis Avrithis

Alexandros Potamianos

394

15 Apr 2025

Multimodal Fusion and Vision-Language Models: A Survey for Robot VisionInformation Fusion (Inf. Fusion), 2025

...

445

03 Apr 2025

Predicate Hierarchies Improve Few-Shot State ClassificationInternational Conference on Learning Representations (ICLR), 2025

437

18 Feb 2025

PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language InterpretationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

156

30 Oct 2024

MMCert: Provable Defense against Adversarial Attacks to Multi-modal Models

381

28 Mar 2024

VCD: A Dataset for Visual Commonsense Discovery in Images

275

27 Feb 2024

ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese

155

27 Oct 2023

Graph Neural Networks in Vision-Language Image Understanding: A SurveyThe Visual Computer (TVC), 2023

322

07 Mar 2023