PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

17 May 2023

Papers citing "PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering"

30 / 30 papers shown

Title
Structure Causal Models and LLMs Integration in Medical Visual Question Answering Zibo Xu Qiang Li Weizhi Nie Weijie Wang Anan Liu CML MedIm 42 0 0 05 May 2025
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation Linshan Wu Yuxiang Nie Sunan He Jiaxin Zhuang Hao Chen LM&MA MedIm 68 0 0 30 Apr 2025
Multimodal Large Language Models for Medicine: A Comprehensive Survey Jiarui Ye Hao Tang LM&MA 84 0 0 29 Apr 2025
Anyprefer: An Agentic Framework for Preference Data Synthesis Yiyang Zhou Z. Wang Tianle Wang Shangyu Xing Peng Xia ... Chetan Bansal Weitong Zhang Ying Wei Mohit Bansal Huaxiu Yao 54 0 0 27 Apr 2025
Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training Yijie Zheng Bangjun Xiao Lei Shi Xiaoyang Li Faming Wu Tianyu Li Xuefeng Xiao Y. Zhang Y. Wang Shouda Liu MLLM MoE 67 1 0 31 Mar 2025
A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI Alejandro Lozano M. W. Sun James Burgess Jeffrey Nirschl Christopher Polzak ... Xiaohan Wang Alfred Seunghoon Song Chiang Chia-Chun Robert Tibshirani Serena Yeung-Levy LM&MA 76 1 0 26 Mar 2025
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models Wenxuan Huang Bohan Jia Zijie Zhai Shaosheng Cao Zheyu Ye Fei Zhao Zhe Xu Yao Hu Shaohui Lin MU OffRL LRM MLLM ReLM VLM 55 37 0 09 Mar 2025
CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models Wei Dai Peilin Chen Malinda Lu Daniel Li Haowen Wei Hejie Cui Paul Pu Liang LM&MA 51 1 0 09 Mar 2025
PaliGemma-CXR: A Multi-task Multimodal Model for TB Chest X-ray Interpretation Denis Musinguzi Andrew Katumba Sudi Murindanyi 28 0 0 28 Feb 2025
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning Jiazhen Pan Che Liu Junde Wu Fenglin Liu Jiayuan Zhu Hongwei Bran Li Chen Chen C. Ouyang Daniel Rueckert LRM LM&MA VLM 65 10 0 26 Feb 2025
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 82 3 0 26 Feb 2025
Baichuan-Omni-1.5 Technical Report Yadong Li J. Liu Tao Zhang Tao Zhang S. Chen ... Jianhua Xu Haoze Sun Mingan Lin Zenan Zhou Weipeng Chen AuLLM 70 10 0 28 Jan 2025
BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs Sheng Zhang Yanbo Xu Naoto Usuyama Hanwen Xu J. Bagga ... Carlo Bifulco M. Lungren Tristan Naumann Sheng Wang Hoifung Poon LM&MA MedIm 151 198 0 10 Jan 2025
On Domain-Specific Post-Training for Multimodal Large Language Models Daixuan Cheng Shaohan Huang Ziyu Zhu Xintong Zhang Wayne Xin Zhao Zhongzhi Luan Bo Dai Zhenliang Zhang VLM 87 2 0 29 Nov 2024
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis Bo Liu K. Zou Liming Zhan Zexin Lu Xiaoyu Dong Yidi Chen Chengqiang Xie Jiannong Cao Xiao-Ming Wu Huazhu Fu 120 0 0 25 Nov 2024
Large Language Model with Region-guided Referring and Grounding for CT Report Generation Z. Chen Yequan Bie Haibo Jin Hao Chen 125 0 0 23 Nov 2024
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine Yunfei Xie Ce Zhou Lang Gao Juncheng Wu Xianhang Li ... Sheng Liu Lei Xing James Zou Cihang Xie Yuyin Zhou LM&MA MedIm 74 23 0 06 Aug 2024
WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering Pingyi Chen Chenglu Zhu Sunyi Zheng Honglin Li Lin Yang 42 6 0 08 Jul 2024
LaPA: Latent Prompt Assist Model For Medical Visual Question Answering Tiancheng Gu Kaicheng Yang Dongnan Liu Weidong Cai MedIm 24 2 0 19 Apr 2024
Hallucination Benchmark in Medical Visual Question Answering Jinge Wu Yunsoo Kim Honghan Wu 25 9 0 11 Jan 2024
AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis Qiuhui Chen Yi Hong MedIm 15 1 0 02 Jan 2024
Large-scale Long-tailed Disease Diagnosis on Radiology Images Qiaoyu Zheng Weike Zhao Chaoyi Wu Xiaoman Zhang Lisong Dai Hengyu Guan Yuehua Li Ya-Qin Zhang Yanfeng Wang Weidi Xie LM&MA MedIm 30 5 0 26 Dec 2023
UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic Cross-modal Learnable Prompts Chenlu Zhan Yufei Zhang Yu Lin Gaoang Wang Hongwei Wang VLM MedIm 21 5 0 18 Dec 2023
Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos M. S. Seyfioglu Wisdom O. Ikezogwo Fatemeh Ghezloo Ranjay Krishna Linda G. Shapiro 30 33 0 07 Dec 2023
Med-Flamingo: a Multimodal Medical Few-shot Learner Michael Moor Qian Huang Shirley Wu Michihiro Yasunaga C. Zakka Yashodhara Dalmia E. Reis Pranav Rajpurkar J. Leskovec LM&MA MedIm 20 229 0 27 Jul 2023
CephGPT-4: An Interactive Multimodal Cephalometric Measurement and Diagnostic System with Visual Large Language Model Lei Ma Jincong Han Zhaoxin Wang Dian Zhang LM&MA 23 8 0 01 Jul 2023
Multi-Modal Masked Autoencoders for Medical Vision-and-Language Pre-Training Zhihong Chen Yu Du Jinpeng Hu Yang Liu Guanbin Li Xiang Wan Tsung-Hui Chang 79 111 0 15 Sep 2022
Attention Mechanism based Cognition-level Scene Understanding Xuejiao Tang Tai Le Quy LRM 23 0 0 17 Apr 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,881 0 04 Mar 2022
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 248 1,986 0 31 Dec 2020