M-QALM: A Benchmark to Assess Clinical Reading Comprehension and
Knowledge Recall in Large Language Models via Question Answering

M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering

6 June 2024

Anand Subramanian

Viktor Schlegel

Abhinav Ramesh Kashyap

Thanh-Tung Nguyen

Vijay Prakash Dwivedi

Papers citing "M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering"

7 / 7 papers shown

Title
MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation Zexue He Yu-Xiang Wang An Yan Yao Liu Eric Y. Chang Amilcare Gentili Julian McAuley Chun-Nan Hsu ELM 54 14 0 21 Oct 2023
PMC-LLaMA: Towards Building Open-source Language Models for Medicine Chaoyi Wu Weixiong Lin Xiaoman Zhang Ya-Qin Zhang Yanfeng Wang Weidi Xie LM&MA AI4MH 86 74 0 27 Apr 2023
ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge Yunxiang Li Zihan Li Kai Zhang Ruilong Dan Steven Jiang You Zhang LM&MA AI4MH 114 366 0 24 Mar 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,730 0 04 Mar 2022
The Factual Inconsistency Problem in Abstractive Text Summarization: A Survey Yi-Chong Huang Xiachong Feng Xiaocheng Feng Bing Qin HILM 128 104 0 30 Apr 2021
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 202 791 0 13 Sep 2019
Towards A Rigorous Science of Interpretable Machine Learning Finale Doshi-Velez Been Kim XAI FaML 225 3,658 0 28 Feb 2017