A Comprehensive Evaluation of Large Language Models on Benchmark
Biomedical Text Processing Tasks

A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks

6 October 2023

Md Tahmid Rahman Laskar

Papers citing "A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks"

12 / 12 papers shown

Title
Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization Ajwad Abrar Farzana Tabassum Sabbir Ahmed LM&MA ELM AI4MH 41 0 0 08 May 2025
EvidenceBench: A Benchmark for Extracting Evidence from Biomedical Papers J. Wang Weili Cao Kaicheng Wang Xiaoyue Wang Ashish Dalvi ... David E. Neal Maxim Khan Christopher D. Rosin R. Paturi Leon Bergen 21 0 0 25 Apr 2025
AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset Tobi Olatunji Charles Nimo A. Owodunni Tassallah Abdullahi Emmanuel Ayodele ... Michael Best Irfan Essa Stephen E. Moore Chris Fourie M. Asiedu LM&MA 68 3 0 23 Nov 2024
Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions Taojun Hu Xiao-Hua Zhou ELM 30 12 0 14 Apr 2024
Biomedical Entity Linking as Multiple Choice Question Answering Zhenxi Lin Ziheng Zhang Xian Wu Yefeng Zheng 26 2 0 23 Feb 2024
An Evaluation of Large Language Models in Bioinformatics Research Hengchuang Yin Zhonghui Gu Fanhao Wang Yiparemu Abuduhaibaier Yanqiao Zhu Xinming Tu Xian-Sheng Hua Xiao Luo Yizhou Sun LM&MA 27 8 0 21 Feb 2024
A comparative study of zero-shot inference with large language models and supervised modeling in breast cancer pathology classification Madhumita Sushil T. Zack Divneet Mandair Zhiwei Zheng Ahmed Wali Yan-Ning Yu Yuwei Quan A. Butte 20 6 0 25 Jan 2024
Task Contamination: Language Models May Not Be Few-Shot Anymore Changmao Li Jeffrey Flanigan 92 87 0 26 Dec 2023
Readability Controllable Biomedical Document Summarization Zheheng Luo Qianqian Xie Sophia Ananiadou 38 36 0 10 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
PRIMERA: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization Wen Xiao Iz Beltagy Giuseppe Carenini Arman Cohan CVBM 70 113 0 16 Oct 2021
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 202 791 0 13 Sep 2019