LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

1 June 2023

Jianwei Yang

Papers citing "LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day"

50 / 107 papers shown

Title
Advancing Food Nutrition Estimation via Visual-Ingredient Feature Fusion Huiyan Qi B. Zhu Chong-Wah Ngo Jingjing Chen Ee-Peng Lim 14 0 0 13 May 2025
GeomHair: Reconstruction of Hair Strands from Colorless 3D Scans Rachmadio Noval Lazuardi Artem Sevastopolsky Egor Zakharov Matthias Niessner V. Sklyarova 3DH 42 0 0 08 May 2025
The Eye as a Window to Systemic Health: A Survey of Retinal Imaging from Classical Techniques to Oculomics Inamullah Imran Razzak Shoaib Jameel 23 0 0 06 May 2025
Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle Networks Baoxia Du H. Du Dusit Niyato Ruidong Li 51 0 0 05 May 2025
Structure Causal Models and LLMs Integration in Medical Visual Question Answering Zibo Xu Qiang Li Weizhi Nie Weijie Wang Anan Liu CML MedIm 35 0 0 05 May 2025
Evaluating Vision Language Model Adaptations for Radiology Report Generation in Low-Resource Languages Marco Salmè R. Sicilia Paolo Soda V. Guarrasi 41 0 0 02 May 2025
Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding Trilok Padhi R. Kaur Adam D. Cobb Manoj Acharya Anirban Roy Colin Samplawski Brian Matejek Alexander M. Berenbeim Nathaniel D. Bastian Susmit Jha 20 0 0 30 Apr 2025
Detecting and Mitigating Hateful Content in Multimodal Memes with Vision-Language Models Minh-Hao Van Xintao Wu VLM 79 0 0 30 Apr 2025
Multimodal Large Language Models for Medicine: A Comprehensive Survey Jiarui Ye Hao Tang LM&MA 76 0 0 29 Apr 2025
Hallucinations and Key Information Extraction in Medical Texts: A Comprehensive Assessment of Open-Source Large Language Models Anindya Bijoy Das Shibbir Ahmed Shahnewaz Karim Sakib HILM LM&MA 57 0 0 27 Apr 2025
Keep the General, Inject the Specific: Structured Dialogue Fine-Tuning for Knowledge Injection without Catastrophic Forgetting Y. Hong Xiaofei Yin Xinzhong Wang Yi Tu Ya Guo Sufeng Duan Weiqiang Wang Lingyong Fang Depeng Wang Huijia Zhu CLL 82 0 0 27 Apr 2025
Anyprefer: An Agentic Framework for Preference Data Synthesis Yiyang Zhou Z. Wang Tianle Wang Shangyu Xing Peng Xia ... Chetan Bansal Weitong Zhang Ying Wei Mohit Bansal Huaxiu Yao 54 0 0 27 Apr 2025
Reason Like a Radiologist: Chain-of-Thought and Reinforcement Learning for Verifiable Report Generation Peiyuan Jing Kinhei Lee Zhenxuan Zhang Huichi Zhou Zhengqing Yuan Zhifan Gao Lei Zhu G. Papanastasiou Yingying Fang Guang Yang MedIm OffRL LRM 58 0 0 25 Apr 2025
Revisiting Data Auditing in Large Vision-Language Models Hongyu Zhu Sichu Liang W. Wang Boheng Li Tongxin Yuan Fangqi Li Shilin Wang Zhuosheng Zhang VLM 88 0 0 25 Apr 2025
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation Ling You Wenxuan Huang Xinni Xie Xiangyi Wei Bangyan Li Shaohui Lin Yang Li Changbo Wang VGen 51 0 0 24 Apr 2025
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models Zhanglin Wu Tengfei Song Ning Xie Weidong Zhang Mengli Zhu ... Pengfei Li C. Li Junhao Zhu Hao-Yu Yang Shiliang Sun 26 1 0 16 Apr 2025
MediSee: Reasoning-based Pixel-level Perception in Medical Images Qinyue Tong Ziqian Lu Jun Liu Yangming Zheng Zheming Lu LRM 23 0 0 15 Apr 2025
PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks J. Wu Hao Yang Xinhua Zeng Guibing He Z. Chen Z. Li X. Zhang Yangyang Ma Run Fang Yang Liu LRM 47 0 0 12 Apr 2025
PaMi-VDPO: Mitigating Video Hallucinations by Prompt-Aware Multi-Instance Video Preference Learning Xinpeng Ding K. Zhang Jinahua Han Lanqing Hong Hang Xu X. Li MLLM VLM 77 0 0 08 Apr 2025
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models Justus Westerhoff Erblina Purellku Jakob Hackstein Jonas Loos Leo Pinetzki Lorenz Hufe AAML 28 0 0 07 Apr 2025
Towards Understanding How Knowledge Evolves in Large Vision-Language Models Sudong Wang Y. Zhang Yao Zhu Jianing Li Zizhe Wang Y. Liu Xiangyang Ji 40 0 0 31 Mar 2025
Communication-Efficient and Personalized Federated Foundation Model Fine-Tuning via Tri-Matrix Adaptation Y. Li Bo Liu Sheng Huang Z. Zhang Xiaotong Yuan Richang Hong 36 0 0 31 Mar 2025
A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI Alejandro Lozano M. W. Sun James Burgess Jeffrey Nirschl Christopher Polzak ... Xiaohan Wang Alfred Seunghoon Song Chiang Chia-Chun Robert Tibshirani Serena Yeung-Levy LM&MA 66 1 0 26 Mar 2025
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning Yiwei Ma Guohai Xu Xiaoshuai Sun Jiayi Ji Jie Lou Debing Zhang Rongrong Ji 90 0 0 26 Mar 2025
Lie Detector: Unified Backdoor Detection via Cross-Examination Framework X. U. Wang Siyuan Liang Dongping Liao Han Fang Aishan Liu Xiaochun Cao Yu-liang Lu E. Chang X. Gao AAML 48 1 0 21 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Y. Wang Shengqiong Wu Y. Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 80 7 0 16 Mar 2025
CLIMB: Data Foundations for Large Scale Multimodal Clinical Foundation Models Wei Dai Peilin Chen Malinda Lu Daniel Li Haowen Wei Hejie Cui Paul Pu Liang LM&MA 51 1 0 09 Mar 2025
Distilled Prompt Learning for Incomplete Multimodal Survival Prediction Yingxue Xu Fengtao Zhou Chenyu Zhao Yihui Wang Can Yang Hao Chen VLM OffRL 52 0 0 03 Mar 2025
MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention Tianyi Wang Jianan Fan Dingxin Zhang Dongnan Liu Yong-quan Xia Heng Huang Weidong Cai 34 0 0 01 Mar 2025
PaliGemma-CXR: A Multi-task Multimodal Model for TB Chest X-ray Interpretation Denis Musinguzi Andrew Katumba Sudi Murindanyi 28 0 0 28 Feb 2025
FedMentalCare: Towards Privacy-Preserving Fine-Tuned LLMs to Analyze Mental Health Status Using Federated Learning Framework S M Sarwar AI4MH 39 0 0 27 Feb 2025
Repurposing the scientific literature with vision-language models Anton Alyakin Jaden Stryker Daniel Alber Karl L. Sangwon Brandon Duderstadt ... Laura Snyder Eric Leuthardt Douglas Kondziolka E. Oermann Eric Karl Oermann 92 0 0 26 Feb 2025
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning Jiazhen Pan Che Liu Junde Wu Fenglin Liu Jiayuan Zhu Hongwei Bran Li Chen Chen C. Ouyang Daniel Rueckert LRM LM&MA VLM 65 10 0 26 Feb 2025
Disentangling Visual Transformers: Patch-level Interpretability for Image Classification Guillaume Jeanneret Loïc Simon F. Jurie ViT 44 0 0 24 Feb 2025
Tracking the Copyright of Large Vision-Language Models through Parameter Learning Adversarial Images Yubo Wang Jianting Tang Chaohu Liu Linli Xu AAML 49 1 0 23 Feb 2025
Natural Language Generation from Visual Sequences: Challenges and Future Directions Aditya K Surikuchi Raquel Fernández Sandro Pezzelle EGVM 97 0 0 18 Feb 2025
Magma: A Foundation Model for Multimodal AI Agents Jianwei Yang Reuben Tan Qianhui Wu Ruijie Zheng Baolin Peng ... Seonghyeon Ye Joel Jang Yuquan Deng Lars Liden Jianfeng Gao VLM AI4TS 98 8 0 18 Feb 2025
NOTA: Multimodal Music Notation Understanding for Visual Large Language Model Mingni Tang Jiajia Li Lu Yang Zhiqiang Zhang Jinghao Tian Z. Li L. Zhang P. Wang 49 0 0 17 Feb 2025
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering Zeqing Wang Wentao Wan Qiqing Lao Runmeng Chen Minjie Lang Keze Wang Liang Lin Liang Lin LRM 94 3 0 17 Feb 2025
MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression Linjie Mu Zhongzhen Huang Shengqian Qin Yakun Zhu S. Zhang Xiaofan Zhang 38 0 0 17 Feb 2025
GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis Angelos Zavras Dimitrios Michail Xiao Xiang Zhu Begum Demir Ioannis Papoutsis VLM 81 0 0 13 Feb 2025
A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics Kai He Rui Mao Qika Lin Yucheng Ruan Xiang Lan Mengling Feng Erik Cambria LM&MA AILaw 79 148 0 28 Jan 2025
Baichuan-Omni-1.5 Technical Report Yadong Li J. Liu Tao Zhang Tao Zhang S. Chen ... Jianhua Xu Haoze Sun Mingan Lin Zenan Zhou Weipeng Chen AuLLM 67 10 0 28 Jan 2025
Domaino1s: Guiding LLM Reasoning for Explainable Answers in High-Stakes Domains Xu Chu Zhijie Tan Hanlin Xue Guanyu Wang Tong Mo Weiping Li ELM LRM 53 1 0 24 Jan 2025
CBVLM: Training-free Explainable Concept-based Large Vision Language Models for Medical Image Classification Cristiano Patrício Isabel Rio-Torto J. S. Cardoso Luís F. Teixeira João C. Neves VLM 116 0 0 21 Jan 2025
PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging Gang Liu Jinlong He Pengfei Li Genrong He Zixu Zhao Shenjun Zhong LM&MA 67 2 0 17 Jan 2025
AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning Muhammad Awais Ali Husain Salem Abdulla Alharthi Amandeep Kumar Hisham Cholakkal Rao Muhammad Anwer VLM 60 3 0 10 Jan 2025
Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Clinical Pathology Analysis Shengxuming Zhang Weihan Li Tianhong Gao Jiacong Hu Haoming Luo Mingli Song Xiuming Zhang Mingli Song Zunlei Feng LM&MA 101 0 0 12 Dec 2024
On Domain-Specific Post-Training for Multimodal Large Language Models Daixuan Cheng Shaohan Huang Ziyu Zhu Xintong Zhang Wayne Xin Zhao Zhongzhi Luan Bo Dai Zhenliang Zhang VLM 87 2 0 29 Nov 2024
Libra: Leveraging Temporal Images for Biomedical Radiology Analysis Xi Zhang Zaiqiao Meng Jake Lever Edmond S. L. Ho MedIm 94 0 0 28 Nov 2024