Benchmarking Retrieval-Augmented Generation for Medicine

Benchmarking Retrieval-Augmented Generation for Medicine

20 February 2024

Aidong Zhang

Papers citing "Benchmarking Retrieval-Augmented Generation for Medicine"

16 / 16 papers shown

Title
Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets Lorenz Brehme Thomas Ströhle Ruth Breu 51 0 0 28 Apr 2025
Exploring the Role of Knowledge Graph-Based RAG in Japanese Medical Question Answering with Small-Scale LLMs Yingjian Chen Feiyang Li Xingyu Song Tianxiao Li Zixin Xu Xiujie Chen Issey Sukeda Irene Z Li 16 0 0 15 Apr 2025
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning Xiangru Tang Daniel Shao Jiwoong Sohn Jiapeng Chen Jiayi Zhang ... Yilun Zhao Chenglin Wu Wenqi Shi Arman Cohan Mark B. Gerstein AI4MH LRM ELM LM&MA 52 4 0 10 Mar 2025
SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering? Yucheng Shi Tianze Yang Canyu Chen Quanzheng Li Tianming Liu X. Li Ninghao Liu MedIm 39 1 0 18 Feb 2025
SimRAG: Self-Improving Retrieval-Augmented Generation for Adapting Large Language Models to Specialized Domains Ran Xu Hui Liu Sreyashi Nag Zhenwei Dai Yaochen Xie ... Chen Luo Yang Li Joyce C. Ho Carl Yang Qi He RALM 58 8 0 28 Jan 2025
ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems Mohita Chowdhury Yajie Vera He Aisling Higham Ernest Lim 53 1 0 14 Jan 2025
MEG: Medical Knowledge-Augmented Large Language Models for Question Answering Laura Cabello Carmen Martin-Turrero Uchenna Akujuobi Anders Søgaard Carlos Bobed AI4MH 30 1 0 06 Nov 2024
Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors Yuefeng Peng Junda Wang Hong-ye Yu Amir Houmansadr SILM 30 2 0 03 Nov 2024
From Tokens to Words: On the Inner Lexicon of LLMs Guy Kaplan Matanel Oren Yuval Reif Roy Schwartz 30 12 0 08 Oct 2024
What is the Role of Small Models in the LLM Era: A Survey Lihu Chen Gaël Varoquaux ALM 38 23 0 10 Sep 2024
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine Yunfei Xie Ce Zhou Lang Gao Juncheng Wu Xianhang Li ... Sheng Liu Lei Xing James Zou Cihang Xie Yuyin Zhou LM&MA MedIm 40 23 0 06 Aug 2024
PaperQA: Retrieval-Augmented Generative Agent for Scientific Research Jakub Lála Odhran O'Donoghue Aleksandar Shtedritski Sam Cox Samuel G. Rodriques Andrew D. White RALM 58 66 0 08 Dec 2023
Opportunities and Challenges for ChatGPT and Large Language Models in Biomedicine and Health Shubo Tian Qiao Jin Lana Yeganova Po-Ting Lai Qingqing Zhu ... Donald C. Comeau R. Islamaj Aadit Kapoor Xin Gao Zhiyong Lu LM&MA MedIm AI4MH 83 203 0 15 Jun 2023
Almanac: Retrieval-Augmented Language Models for Clinical Medicine C. Zakka Akash Chaurasia R. Shad Alex R. Dalal Jennifer L. Kim ... Kathleen Boyd Karen Hirsch C. Langlotz Joanna Nelson W. Hiesinger LM&MA 86 78 0 01 Mar 2023
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 229 720 0 17 Apr 2021
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 193 791 0 13 Sep 2019