v1v2v3v4v5 (latest)

AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments

13 May 2024

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments"

50 / 104 papers shown

Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence

351

02 Dec 2024

PIORS: Personalized Intelligent Outpatient Reception based on Large Language Model with Multi-Agents Medical Scenario Simulation

328

21 Nov 2024

VILA-M3: Enhancing Vision-Language Models with Medical Expert KnowledgeComputer Vision and Pattern Recognition (CVPR), 2024

...

Baris Turkbey

Holger Roth

Daguang Xu

VLM

535

19 Nov 2024

Enhancing Investment Analysis: Optimizing AI-Agent Collaboration in Financial ResearchInternational Conference on AI in Finance (ICAF), 2024

151

07 Nov 2024

Social Science Meets LLMs: How Reliable Are Large Language Models in Social Simulations?

Xiangqi Wang

...

Jindong Wang

167

30 Oct 2024

MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison FeedbackNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

426

17 Oct 2024

Adaptive Reasoning and Acting in Medical Language Agents

Abhishek Dutta

Yen-Che Hsiao

AI4CE LM&MA

105

13 Oct 2024

MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders

Cheng-rong Li

May Fung

Qingyun Wang

Chi Han

Pengfei Yu

Jindong Wang

Heng Ji

AI4MH

887

09 Oct 2024

Simulated patient systems powered by large language model-based AI agents offer potential for transforming medical educationCommunications Medicine (Commun Med), 2024

...

Themistocles L. Assimes

Lizhou Fan

Lin Lu

Lizhou Fan

969

27 Sep 2024

A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

Yunfei Xie

Juncheng Wu

Haoqin Tu

Siwei Yang

Bingchen Zhao

Cihang Xie

316

23 Sep 2024

From Text to Multimodality: Exploring the Evolution and Impact of Large Language Models in Medical Practice

Qian Niu

Keyu Chen

Ming Li

Pohsun Feng

Ziqian Bi

...

Junyu Liu

Benji Peng

Tianyang Wang

Yunze Wang

Silin Chen

LM&MA

534

14 Sep 2024

Interactive Agents: Simulating Counselor-Client Psychological Counseling via Role-Playing LLM-to-LLM Interactions

Huachuan Qiu

Zhenzhong Lan

266

28 Aug 2024

MSDiagnosis: An EMR-based Dataset for Clinical Multi-Step Diagnosis

296

19 Aug 2024

Med-PMC: Medical Personalized Multi-modal Consultation with a Proactive Ask-First-Observe-Next Paradigm

Yanfeng Wang

Yu Wang

LM&MA

171

16 Aug 2024

GP-VLS: A general-purpose vision language model for surgery

335

27 Jul 2024

Cactus: Towards Psychological Counseling Conversations using Cognitive Behavioral Theory

...

Youngjae Yu

Jinyoung Yeo

210

03 Jul 2024

MMedAgent: Learning to Use Medical Tools with Multi-modal Agent

Yixin Wang

217

02 Jul 2024

Ask-before-Plan: Proactive Language Agents for Real-World PlanningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

264

18 Jun 2024

Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs

Jialiang Xu

Michael Moor

J. Leskovec

186

29 May 2024

LLM Evaluators Recognize and Favor Their Own Generations

Arjun Panickssery

Samuel R. Bowman

Shi Feng

393

344

15 Apr 2024

m&m's: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

353

17 Mar 2024

Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator

256

13 Mar 2024

Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answeringConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Ojas Gramopadhye

Saeel Sandeep Nachane

Ganesh Ramakrishnan

245

07 Mar 2024

Benchmarking Retrieval-Augmented Generation for Medicine

Aidong Zhang

399

361

20 Feb 2024

Addressing cognitive bias in medical language models

287

12 Feb 2024

Towards Conversational Diagnostic AI

...

Yossi Matias

Alan Karthikesalingam

Vivek Natarajan

AI4MH LM&MA

257

138

11 Jan 2024

Mixtral of Experts

Albert Q. Jiang

Alexandre Sablayrolles

...

519

1,557

08 Jan 2024

Retrieval-Augmented Generation for Large Language Models: A Survey

1.2K

2,675

18 Dec 2023

Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine

...

LM&MA AI4MH MedIm ELM

245

438

28 Nov 2023

MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

Zeming Chen

Alejandro Hernández Cano

...

322

304

27 Nov 2023

MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

Arman Cohan

430

305

16 Nov 2023

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-ReflectionInternational Conference on Learning Representations (ICLR), 2023

601

1,312

17 Oct 2023

Language models are susceptible to incorrect patient self-diagnosis in medical applications

Rojin Ziaei

Samuel Schmidgall

ELM LM&MA

210

17 Sep 2023

A Survey on Large Language Model based Autonomous Agents

Lei Wang

...

Yankai Lin

658

2,098

22 Aug 2023

ExpeL: LLM Agents Are Experiential LearnersAAAI Conference on Artificial Intelligence (AAAI), 2023

Gao Huang

463

337

20 Aug 2023

Judging LLM-as-a-Judge with MT-Bench and Chatbot ArenaNeural Information Processing Systems (NeurIPS), 2023

...

3.1K

6,557

09 Jun 2023

Improving Factuality and Reasoning in Language Models through Multiagent DebateInternational Conference on Machine Learning (ICML), 2023

Yilun Du

Shuang Li

Antonio Torralba

J. Tenenbaum

Igor Mordatch

LLMAG LRM

346

1,167

23 May 2023

Active Retrieval Augmented GenerationConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Graham Neubig

373

466

11 May 2023

PMC-LLaMA: Towards Building Open-source Language Models for Medicine

287

27 Apr 2023

Generative Agents: Interactive Simulacra of Human BehaviorACM Symposium on User Interface Software and Technology (UIST), 2023

Cristina Mata

Joseph C. O'Brien

Carrie J. Cai

Meredith Ringel Morris

Abigail Z. Jacobs

Michael S. Bernstein

LM&Ro AI4CE

855

2,989

07 Apr 2023

Almanac: Retrieval-Augmented Language Models for Clinical MedicineResearch Square (RS), 2023

...

402

217

01 Mar 2023

LLaMA: Open and Efficient Foundation Language Models

...

4.9K

17,636

27 Feb 2023

Large Language Models Encode Clinical KnowledgeNature (Nature), 2022

...

Alan Karthikesalingam

Vivek Natarajan

LM&MA ELM AI4MH

602

3,359

26 Dec 2022

Can large language models reason about medical questions?Patterns (Patterns), 2022

Valentin Liévin

C. Hother

Andreas Geert Motzfeldt

Ole Winther

ELM LM&MA AI4MH LRM

510

387

17 Jul 2022

Large Language Models are Zero-Shot ReasonersNeural Information Processing Systems (NeurIPS), 2022

1.4K

6,003

24 May 2022

MedMCQA : A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question AnsweringACM Conference on Health, Inference, and Learning (ACM CHIL), 2022

Ankit Pal

Logesh Kumar Umapathi

Malaikannan Sankarasubbu

ELM LM&MA

485

517

27 Mar 2022

Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsNeural Information Processing Systems (NeurIPS), 2022

2.3K

14,449

28 Jan 2022

What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical ExamsApplied Sciences (Appl. Sci.), 2020

420

1,252

28 Sep 2020

Measuring Massive Multitask Language UnderstandingInternational Conference on Learning Representations (ICLR), 2020

2.2K

6,489

07 Sep 2020

Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing

Xiaodong Liu

660

2,143

31 Jul 2020