v1v2 (latest)

Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review

4 March 2024

Iryna Hartsock

Ghulam Rasool

ArXiv (abs)PDF HTML Github

Papers citing "Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review"

50 / 64 papers shown

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models

298

03 Dec 2025

On the Utility of Foundation Models for Fast MRI: Vision-Language-Guided Image Reconstruction

238

24 Nov 2025

L2V-CoT: Cross-Modal Transfer of Chain-of-Thought Reasoning via Latent Intervention

138

22 Nov 2025

MM-Telco: Benchmarks and Multimodal Large Language Models for Telecom Applications

...

187

17 Nov 2025

Semantic Document Derendering: SVG Reconstruction via Vision-Language Modeling

281

17 Nov 2025

Medical Report Generation: A Hierarchical Task Structure-Based Cross-Modal Causal Intervention Framework

118

04 Nov 2025

Black-Box Membership Inference Attack for LVLMs via Prior Knowledge-Calibrated Memory Probing

229

03 Nov 2025

HistoLens: An Interactive XAI Toolkit for Verifying and Mitigating Flaws in Vision-Language Models for Histopathology

112

28 Oct 2025

Med-VRAgent: A Framework for Medical Visual Reasoning-Enhanced Agents

225

21 Oct 2025

Fine-Tuning MedGemma for Clinical Captioning to Enhance Multimodal RAG over Malaysia CPGs

Lee Qi Zun

Mohamad Zulhilmi Bin Abdul Halim

Goh Man Fye

177

17 Oct 2025

ReEvalMed: Rethinking Medical Report Evaluation by Aligning Metrics with Real-World Clinical Judgment

192

30 Sep 2025

Video Panels for Long Video Understanding

206

28 Sep 2025

AMANDA: Agentic Medical Knowledge Augmentation for Data-Efficient Medical Visual Question Answering

162

26 Sep 2025

RAU: Reference-based Anatomical Understanding with Vision Language Models

166

26 Sep 2025

EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models

...

297

24 Sep 2025

Eye Gaze Tells You Where to Compute: Gaze-Driven Efficient VLMs

Qinyu Chen

Jiawen Qi

148

20 Sep 2025

Intelligent Healthcare Imaging Platform: A VLM-Based Framework for Automated Medical Image Analysis and Clinical Report Generation

Samer Al-Hamadani

LM&MA

171

16 Sep 2025

Analysis of Blood Report Images Using General Purpose Vision-Language Models

Nadia Bakhsheshi

Hamid Beigy

VLM

07 Sep 2025

XDR-LVLM: An Explainable Vision-Language Large Model for Diabetic Retinopathy Diagnosis

181

21 Aug 2025

Hallucinations in medical devices

214

18 Aug 2025

M3PO: Multimodal-Model-Guided Preference Optimization for Visual Instruction Following

241

17 Aug 2025

A Multi-Agent System for Complex Reasoning in Radiology Visual Question Answering

268

04 Aug 2025

Your other Left! Vision-Language Models Fail to Identify Relative Positions in Medical ImagesInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

160

01 Aug 2025

A Survey of Multimodal Hallucination Evaluation and Detection

468

25 Jul 2025

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

Sushant Gautam

Pål Halvorsen

354

11 Jun 2025

Enhancing the Safety of Medical Vision-Language Models by Synthetic Demonstrations

Zhiyu Xue

Reza Abbasi-Asl

Ramtin Pedarsani

169

08 Jun 2025

DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis?

289

30 May 2025

Vid-SME: Membership Inference Attacks against Large Video Understanding Models

Qi Li

Runpeng Yu

Xinchao Wang

349

29 May 2025

Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration

555

27 May 2025

An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning

333

26 May 2025

Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering

Ibrahim Ethem Hamamci

Zongwei Zhou

Yaoyao Liu

ELM

322

25 May 2025

Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models

571

18 May 2025

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

...

1.4K

05 May 2025

Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

364

03 May 2025

V3LMA: Visual 3D-enhanced Language Model for Autonomous Driving

438

30 Apr 2025

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

759

07 Apr 2025

MedM-VL: What Makes a Good Medical LVLM?

545

06 Apr 2025

^2

IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering

441

06 Apr 2025

Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

735

03 Apr 2025

LVMed-R2: Perception and Reflection-driven Complex Reasoning for Medical Report Generation

437

02 Apr 2025

BadToken: Token-level Backdoor Attacks to Multi-modal Large Language ModelsComputer Vision and Pattern Recognition (CVPR), 2025

513

20 Mar 2025

A LongFormer-Based Framework for Accurate and Efficient Medical Text Summarization

342

10 Mar 2025

Abn-BLIP: Abnormality-aligned Bootstrapping Language-Image Pre-training for Pulmonary Embolism Diagnosis and Report Generation from CTPAMedical Image Analysis (MedIA), 2025

...

331

03 Mar 2025

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement LearningInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

628

149

26 Feb 2025

The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting

221

24 Feb 2025

A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and EthicsInformation Fusion (Inf. Fusion), 2023

897

298

28 Jan 2025

StreamingRAG: Real-time Contextual Retrieval and Generation Framework

Murugan Sankaradas

Ravi K.Rajendran

Srimat T.Chakradhar

270

23 Jan 2025

More is Less? A Simulation-Based Approach to Dynamic Interactions between Biases in Multimodal Models

Mounia Drissi

206

23 Dec 2024

Deep Learning-Based Noninvasive Screening of Type 2 Diabetes with Chest X-ray Images and Electronic Health Records

Sanjana Gundapaneni

Zhuo Zhi

Miguel R. D. Rodrigues

326

14 Dec 2024

Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model

445

19 Nov 2024