Title
Uncertainty-Aware Large Language Models for Explainable Disease Diagnosis Shuang Zhou Jiashuo Wang Zidu Xu Song Wang David Brauer ... Zaifu Zhan Yu Hou Mingquan Lin Genevieve B. Melton Rui Zhang 38 0 0 06 May 2025
A Scalable Framework for Evaluating Health Language Models Neil Mallinar A. Heydari Xin Liu Anthony Z. Faranesh Brent Winslow ... Mark Malhotra Shwetak N. Patel Javier L. Prieto Daniel J. McDuff Ahmed A. Metwally LM&MA 53 1 0 30 Mar 2025
Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025:A Comparative Analysis of Clinical Reasoning and Knowledge Application Carlos Luengo Vera Ignacio Ferro Picon M. Teresa del Val Nunez Jose Andres Gomez Gandia Antonio de Lucas Ancillo Victor Ramos Arroyo Carlos Milan Figueredo ELM LM&MA 29 0 0 24 Feb 2025
Clinical Insights: A Comprehensive Review of Language Models in Medicine Nikita Neveditsin Pawan Lingras V. Mago LM&MA 46 3 0 08 Jan 2025
A Review on Generative AI Models for Synthetic Medical Text, Time Series, and Longitudinal Data Mohammad Loni Fatemeh Poursalim Mehdi Asadi Arash Gharehbaghi SyDa 64 0 0 19 Nov 2024
Electrocardiogram-Language Model for Few-Shot Question Answering with Meta Learning Jialu Tang Tong Xia Yuan Lu Cecilia Mascolo Aaqib Saeed AI4MH 47 2 0 18 Oct 2024
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation João Matos Shan Chen Siena Placino Yingya Li Juan Carlos Climent Pardo ... Hugo J. W. L. Aerts L. A. Celi A. I. Wong Danielle S. Bitterman Jack Gallifant 18 0 0 16 Oct 2024
FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection Jiaqi Wang Xiaochen Wang Lingjuan Lyu Jinghui Chen Fenglong Ma 69 3 0 17 Aug 2024
FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models Xiaochen Wang Jiaqi Wang Houping Xiao J. Chen Fenglong Ma MedIm 61 7 0 17 Aug 2024
Validation Requirements for AI-based Intervention-Evaluation in Aging and Longevity Research and Practice G. Fuellen Anton Y Kulaga Sebastian Lobentanzer Maximilian Unfried Roberto Avelar Daniel Palmer Brian K. Kennedy 21 1 0 11 Aug 2024
Accuracy and Consistency of LLMs in the Registered Dietitian Exam: The Impact of Prompt Engineering and Knowledge Retrieval Iman Azimi Mohan Qi Li Wang Amir M. Rahmani Youlin Li 41 0 0 06 Aug 2024
Interpretable Differential Diagnosis with Dual-Inference Large Language Models Shuang Zhou Sirui Ding Jiashuo Wang Mingquan Lin Genevieve B. Melton Rui Zhang LM&MA 25 2 0 10 Jul 2024
Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation Cheng-Yi Li Kao-Jung Chang Cheng-Fu Yang Hsin-Yu Wu Wenting Chen ... Yu-Chun Chen Shih-Pin Chen J. Lirng Kai-Wei Chang Shih-Hwa Chiou LM&MA MedIm 16 0 0 02 Jul 2024
Emerging Opportunities of Using Large Language Models for Translation Between Drug Molecules and Indications David Oniani Jordan Hilsman Chengxi Zang Junmei Wang Lianjin Cai Jan Zawala Yanshan Wang 11 7 0 14 Feb 2024
Conversational Health Agents: A Personalized LLM-Powered Agent Framework Mahyar Abbasian Iman Azimi Amir M. Rahmani Ramesh C. Jain AI4CE LM&MA 18 69 0 03 Oct 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 206 559 0 03 May 2023
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models Potsawee Manakul Adian Liusie Mark J. F. Gales HILM LRM 147 386 0 15 Mar 2023
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 225 495 0 28 Sep 2022
Toward Improving Health Literacy in Patient Education Materials with Neural Machine Translation Models David Oniani Sreekanth Sreekumar Renuk DeAlmeida D. DeAlmeida Vivian Hui Y. Lee Yiye Zhang Leming Zhou Yanshan Wang LM&MA 10 5 0 14 Sep 2022
Chain of Explanation: New Prompting Method to Generate Higher Quality Natural Language Explanation for Implicit Hate Speech Fan Huang Haewoon Kwak Jisun An LRM 50 20 0 11 Sep 2022
BBQ: A Hand-Built Bias Benchmark for Question Answering Alicia Parrish Angelica Chen Nikita Nangia Vishakh Padmakumar Jason Phang Jana Thompson Phu Mon Htut Sam Bowman 210 364 0 15 Oct 2021
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He D. Song Jacob Steinhardt ELM AIMat ALM 194 614 0 20 May 2021
LIME: Learning Inductive Bias for Primitives of Mathematical Reasoning Yuhuai Wu M. Rabe Wenda Li Jimmy Ba Roger C. Grosse Christian Szegedy AIMat LRM 61 51 0 15 Jan 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 245 1,977 0 31 Dec 2020
Extracting Training Data from Large Language Models Nicholas Carlini Florian Tramèr Eric Wallace Matthew Jagielski Ariel Herbert-Voss ... Tom B. Brown D. Song Ulfar Erlingsson Alina Oprea Colin Raffel MLAU SILM 267 1,798 0 14 Dec 2020
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 396 2,576 0 03 Sep 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018
Teaching Machines to Read and Comprehend Karl Moritz Hermann Tomás Kociský Edward Grefenstette L. Espeholt W. Kay Mustafa Suleyman Phil Blunsom 170 3,504 0 10 Jun 2015