Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review

4 March 2024

Papers citing "Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review"

31 / 31 papers shown

Title
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities X. Zhang Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 57 0 0 05 May 2025
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models Gracjan Góral Alicja Ziarko Piotr Miłoś Michał Nauman Maciej Wołczyk Michał Kosiński LRM 20 0 0 03 May 2025
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models Justus Westerhoff Erblina Purellku Jakob Hackstein Jonas Loos Leo Pinetzki Lorenz Hufe AAML 28 0 0 07 Apr 2025
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning Jiazhen Pan Che Liu Junde Wu Fenglin Liu Jiayuan Zhu Hongwei Bran Li Chen Chen C. Ouyang Daniel Rueckert LRM LM&MA VLM 59 10 0 26 Feb 2025
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking Jinyang Wu Mingkuan Feng Shuai Zhang Ruihan Jin Feihu Che Zengqi Wen J. Tao LRM 47 7 0 04 Feb 2025
StreamingRAG: Real-time Contextual Retrieval and Generation Framework Murugan Sankaradas Ravi K.Rajendran Srimat T.Chakradhar 26 1 0 23 Jan 2025
VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge Vishwesh Nath Wenqi Li Dong Yang Andriy Myronenko Mingxin Zheng ... Holger Roth Daguang Xu Baris Turkbey Holger Roth Daguang Xu VLM 90 4 0 19 Nov 2024
SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models Bo Lin Yingjing Xu Xuanwen Bao Zhou Zhao Zuyong Zhang Zhouyang Wang 34 2 0 23 Apr 2024
Medical Vision Language Pretraining: A survey Prashant Shrestha Sanskar Amgain Bidur Khanal Cristian A. Linte Binod Bhattarai VLM 25 14 0 11 Dec 2023
RaDialog: A Large Vision-Language Model for Radiology Report Generation and Conversational Assistance Chantal Pellegrini Ege Ozsoy Benjamin Busam Nassir Navab Matthias Keicher MedIm LM&MA 39 0 0 30 Nov 2023
Investigating the Catastrophic Forgetting in Multimodal Large Language Models Yuexiang Zhai Shengbang Tong Xiao Li Mu Cai Qing Qu Yong Jae Lee Y. Ma VLM MLLM CLL 66 75 0 19 Sep 2023
ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge Yunxiang Li Zihan Li Kai Zhang Ruilong Dan Steven Jiang You Zhang LM&MA AI4MH 114 366 0 24 Mar 2023
Multimodal Data Integration for Oncology in the Era of Deep Neural Networks: A Review Asim Waqas Aakash Tripathi Ravichandran Ramachandran Paul Stewart Ghulam Rasool AI4CE 26 29 0 11 Mar 2023
RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training Zheng Yuan Qiao Jin Chuanqi Tan Zhengyun Zhao Hongyi Yuan Fei Huang Songfang Huang 38 26 0 01 Mar 2023
RepsNet: Combining Vision with Language for Automated Medical Reports A. Tanwani Joelle Barral Daniel Freedman MedIm 33 19 0 27 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 74 208 0 18 Feb 2022
VT-ADL: A Vision Transformer Network for Image Anomaly Detection and Localization P. Mishra Riccardo Verk Daniele Fornasier C. Piciarelli G. Foresti ViT 70 194 0 20 Apr 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 275 3,784 0 18 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 518 0 04 Feb 2021
Curriculum Learning: A Survey Petru Soviany Radu Tudor Ionescu Paolo Rota N. Sebe ODL 63 251 0 25 Jan 2021
Improving Factual Completeness and Consistency of Image-to-Text Radiology Report Generation Yasuhide Miura Yuhao Zhang Emily Bao Tsai C. Langlotz Dan Jurafsky MedIm 139 152 0 20 Oct 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 273 1,561 0 18 Sep 2019
Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism M. Shoeybi M. Patwary Raul Puri P. LeGresley Jared Casper Bryan Catanzaro MoE 243 1,791 0 17 Sep 2019
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 196 791 0 13 Sep 2019
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 261 10,106 0 16 Nov 2016
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,435 0 26 Sep 2016
You Only Look Once: Unified, Real-Time Object Detection Joseph Redmon S. Divvala Ross B. Girshick Ali Farhadi ObjD 266 35,677 0 08 Jun 2015
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 226 74,467 0 18 May 2015
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 228 29,632 0 16 Jan 2013