Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

28 February 2024

Papers citing "Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions"

15 / 15 papers shown

Title
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning Xiangru Tang Daniel Shao Jiwoong Sohn Jiapeng Chen Jiayi Zhang ... Yilun Zhao Chenglin Wu Wenqi Shi Arman Cohan Mark B. Gerstein AI4MH LRM ELM LM&MA 62 4 0 10 Mar 2025
EchoQA: A Large Collection of Instruction Tuning Data for Echocardiogram Reports L. Moukheiber Mira Moukheiber Dana Moukheiiber Jae-Woo Ju Hyung-Chul Lee LM&MA 70 0 0 04 Mar 2025
Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support G. Wang Minyu Gao Shuai Yang Ya Zhang Lizhi He ... Yexuan Zhang Wanyue Li Lu Chen Jintao Fei Xin Li 62 1 0 25 Feb 2025
Evaluating Large Language Models for Public Health Classification and Extraction Tasks Joshua Harris Timothy Laurence Leo Loman Fan Grayson Toby Nonnenmacher ... Hamish Mohammed Thomas Finnie Luke Hounsome Michael Borowitz Steven Riley LM&MA AI4MH 79 5 0 20 Feb 2025
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning Zhongzhen Huang Gui Geng Shengyi Hua Zhen Huang Haoyang Zou S. Zhang Pengfei Liu Xiaofan Zhang LRM 38 10 0 11 Jan 2025
AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset Tobi Olatunji Charles Nimo A. Owodunni Tassallah Abdullahi Emmanuel Ayodele ... Michael Best Irfan Essa Stephen E. Moore Chris Fourie M. Asiedu LM&MA 65 3 0 23 Nov 2024
DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models Bowen Wang Jiuyang Chang Yiming Qian Guoxin Chen Junhao Chen Zhouqiang Jiang Jiahao Zhang Yuta Nakashima Hajime Nagahara LM&MA ELM LRM 38 3 0 04 Aug 2024
K-QA: A Real-World Medical Q&A Benchmark Itay Manes Naama Ronn David Cohen Ran Ilan Ber Zehavi Horowitz-Kugler Gabriel Stanovsky LM&MA HILM AI4MH 20 10 0 25 Jan 2024
MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation Zexue He Yu-Xiang Wang An Yan Yao Liu Eric Y. Chang Amilcare Gentili Julian McAuley Chun-Nan Hsu ELM 54 14 0 21 Oct 2023
A Study of Generative Large Language Model for Medical Research and Healthcare C.A.I. Peng Xi Yang Aokun Chen Kaleb E. Smith Nima M. Pournejatian ... W. Hogan E. Shenkman Yi Guo Jiang Bian Yonghui Wu LM&MA ELM AI4MH 140 238 0 22 May 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Meta-learning via Language Model In-context Tuning Yanda Chen Ruiqi Zhong Sheng Zha George Karypis He He 213 155 0 15 Oct 2021
Teaching Machines to Read and Comprehend Karl Moritz Hermann Tomás Kociský Edward Grefenstette L. Espeholt W. Kay Mustafa Suleyman Phil Blunsom 170 3,504 0 10 Jun 2015