Capabilities of GPT-4 on Medical Challenge Problems

20 March 2023

Papers citing "Capabilities of GPT-4 on Medical Challenge Problems"

50 / 370 papers shown

Title
Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine Qiao Jin Fangyuan Chen Yiliang Zhou Ziyang Xu Justin M. Cheung ... Alex Chen Josef A. Brejt Michael F. Chiang Yifan Peng Zhiyong Lu ELM MedIm LM&MA 12 36 0 16 Jan 2024
Developing ChatGPT for Biology and Medicine: A Complete Review of Biomedical Question Answering Qing Li Lei Li Yu Li LM&MA AI4MH 28 6 0 15 Jan 2024
Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data Y. Kim X. Xu Daniel J. McDuff C. Breazeal Hae Won Park AI4MH LM&MA 29 59 0 12 Jan 2024
AI Hallucinations: A Misnomer Worth Clarifying Negar Maleki Balaji Padmanabhan Kaushik Dutta 28 33 0 09 Jan 2024
SPEER: Sentence-Level Planning of Long Clinical Summaries via Embedded Entity Retrieval Griffin Adams Jason Zucker Noémie Elhadad 24 4 0 04 Jan 2024
Data-Centric Foundation Models in Computational Healthcare: A Survey Yunkun Zhang Jin Gao Zheling Tan Lingfeng Zhou Kexin Ding Mu Zhou Shaoting Zhang Dequan Wang AI4CE 21 20 0 04 Jan 2024
Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education Vahid Ashrafimoghari Necdet Gurkan Jordan W. Suchow ELM 22 6 0 02 Jan 2024
MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models Yan Cai Linlin Wang Ye Wang Gerard de Melo Ya-Qin Zhang Yanfeng Wang Liang He AI4MH ELM LM&MA 45 15 0 20 Dec 2023
NLP for Maternal Healthcare: Perspectives and Guiding Principles in the Age of LLMs Maria Antoniak Aakanksha Naik Carla S. Alvarado Lucy Lu Wang Irene Y. Chen AILaw 8 13 0 19 Dec 2023
Evaluating AI Vocational Skills Through Professional Testing David A. Noever Matt Ciolino ELM 28 0 0 17 Dec 2023
DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content Wentao Wang Xuanyao Huang Tianyang Wang S. K. Roy EGVM 29 0 0 16 Dec 2023
Low-resource classification of mobility functioning information in clinical sentences using large language models Tuan-Dung Le Thanh Duong Thanh Thieu 19 0 0 15 Dec 2023
Distilling Large Language Models for Matching Patients to Clinical Trials Mauro Nievas Aditya Basu Yanshan Wang Hrituraj Singh ELM LM&MA 12 27 0 15 Dec 2023
RJUA-QA: A Comprehensive QA Dataset for Urology Shiwei Lyu Chenfei Chi Hongbo Cai Lei Shi Xiaoyan Yang ... Xiaowei Ma Yue Shen Jinjie Gu Wei Xue Yiran Huang LM&MA 26 3 0 15 Dec 2023
Evaluating Large Language Models for Health-related Queries with Presuppositions Navreet Kaur Monojit Choudhury Danish Pruthi HILM ELM 19 2 0 14 Dec 2023
A Foundational Multimodal Vision Language AI Assistant for Human Pathology Ming Y. Lu Bowen Chen Drew F. K. Williamson Richard J. Chen Kenji Ikamura ... Ivy Liang L. Le Tong Ding Anil V. Parwani Faisal Mahmood MedIm LM&MA 23 19 0 13 Dec 2023
Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming Younes Lakhnati Max Pascher Jens Gerken LLMAG LM&Ro 25 3 0 12 Dec 2023
Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs O. Ovadia Menachem Brief Moshik Mishaeli Oren Elisha RALM 15 130 0 10 Dec 2023
Two Directions for Clinical Data Generation with Large Language Models: Data-to-Label and Label-to-Data Rumeng Li Xun Wang Hong Yu LM&MA 38 22 0 09 Dec 2023
CLadder: Assessing Causal Reasoning in Language Models Zhijing Jin Yuen Chen Felix Leeb Luigi Gresele Ojasv Kamal ... Kevin Blin Fernando Gonzalez Adauto Max Kleiman-Weiner Mrinmaya Sachan Bernhard Schölkopf ReLM ELM LRM 38 62 0 07 Dec 2023
Speculative Exploration on the Concept of Artificial Agents Conducting Autonomous Research Shiro Takagi 37 0 0 06 Dec 2023
Breast Ultrasound Report Generation using LangChain Jaeyoung Huh HyunWook Park Jong Chul Ye 16 5 0 05 Dec 2023
Towards Accurate Differential Diagnosis with Large Language Models Daniel J. McDuff M. Schaekermann Tao Tu Anil Palepu Amy Wang ... G. Corrado Yossi Matias Jacob Sunshine Alan Karthikesalingam Vivek Natarajan ELM LM&MA 29 69 0 30 Nov 2023
FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity Shiyao Cui Zhenyu Zhang Yilong Chen Wenyuan Zhang Tianyun Liu Siqi Wang Tingwen Liu 28 13 0 30 Nov 2023
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine Harsha Nori Yin Tat Lee Sheng Zhang Dean Carignan Richard Edgar ... Hoifung Poon Tao Qin Naoto Usuyama Chris White Eric Horvitz LM&MA AI4MH MedIm ELM 30 288 0 28 Nov 2023
MEDITRON-70B: Scaling Medical Pretraining for Large Language Models Zeming Chen Alejandro Hernández Cano Angelika Romanou Antoine Bonnet Kyle Matoba ... Axel Marmet Syrielle Montariol Mary-Anne Hartley Martin Jaggi Antoine Bosselut LM&MA AI4MH MedIm 24 174 0 27 Nov 2023
Justifiable Artificial Intelligence: Engineering Large Language Models for Legal Applications Sabine Wehnert AILaw 29 4 0 27 Nov 2023
Algorithm Evolution Using Large Language Model Fei Liu Xialiang Tong Mingxuan Yuan Qingfu Zhang 17 39 0 26 Nov 2023
Walking a Tightrope -- Evaluating Large Language Models in High-Risk Domains Chia-Chien Hung Wiem Ben-Rim Lindsay Frost Lars Bruckner Carolin (Haas) Lawrence AILaw ALM ELM 20 9 0 25 Nov 2023
From Text to Image: Exploring GPT-4Vision's Potential in Advanced Radiological Analysis across Subspecialties Felix Busch T. Han Marcus R. Makowski Daniel Truhn Keno Bressem Lisa Christine Adams MedIm LM&MA 21 5 0 24 Nov 2023
From Classification to Clinical Insights: Towards Analyzing and Reasoning About Mobile and Behavioral Health Data With Large Language Models Zachary Englhardt Chengqian Ma Margaret E. Morris X. Xu Chun-Cheng Chang Lianhui Qin Daniel J. McDuff Xin Liu Shwetak N. Patel Vikram Iyer AI4MH 32 11 0 21 Nov 2023
Can Large Language Models Understand Content and Propagation for Misinformation Detection: An Empirical Study Mengyang Chen Lingwei Wei Han Cao Wei Zhou Song Hu 11 6 0 21 Nov 2023
FinanceBench: A New Benchmark for Financial Question Answering Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen RALM 19 71 0 20 Nov 2023
Causal Structure Learning Supervised by Large Language Model Taiyu Ban Lyuzhou Chen Derui Lyu Xiangyu Wang Huanhuan Chen 63 12 0 20 Nov 2023
Advancements in Generative AI: A Comprehensive Review of GANs, GPT, Autoencoders, Diffusion Model, and Transformers Staphord Bengesi Hoda El-Sayed Md Kamruzzaman Sarker Yao Houkpati John Irungu T. Oladunni 45 69 0 17 Nov 2023
MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning Xiangru Tang Anni Zou Zhuosheng Zhang Ziming Li Yilun Zhao Xingyao Zhang Arman Cohan Mark B. Gerstein LRM LM&MA 22 134 0 16 Nov 2023
Grounding Gaps in Language Model Generations Omar Shaikh Kristina Gligorić Ashna Khetan Matthias Gerstgrasser Diyi Yang Dan Jurafsky 8 20 0 15 Nov 2023
An Eye on Clinical BERT: Investigating Language Model Generalization for Diabetic Eye Disease Phenotyping Keith Harrigian Tina Tang Anthony Gonzales Cindy X. Cai Mark Dredze VLM 22 2 0 15 Nov 2023
Evaluation of GPT-4 for chest X-ray impression generation: A reader study on performance and perception Sebastian Ziegelmayer Alexander W. Marka Nicolas Lenhart Nadja Nehls S. Reischl Felix Harder Andreas Sauter Marcus R. Makowski Markus Graf J. Gawlitza MedIm LM&MA 12 12 0 12 Nov 2023
Accuracy of a Vision-Language Model on Challenging Medical Cases Thomas A. Buckley James A. Diao Adam Rodman Arjun K. Manrai MedIm LM&MA 8 13 0 09 Nov 2023
Large Language Models and Prompt Engineering for Biomedical Query Focused Multi-Document Summarisation Diego Mollá Aliod LM&MA 29 1 0 09 Nov 2023
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge Hongjian Zhou Fenglin Liu Boyang Gu Xinyu Zou Jinfa Huang ... Yefeng Zheng Lei A. Clifton Zheng Li Fenglin Liu David A. Clifton LM&MA 31 106 0 09 Nov 2023
Evaluating multiple large language models in pediatric ophthalmology J. Holmes Rui Peng Yiwei Li Jinyu Hu Zheng Liu ... Wei Liu Hong Wei Jie Zou Tianming Liu Yi Shao AI4Ed ELM LM&MA 14 0 0 07 Nov 2023
CRAB: Assessing the Strength of Causal Relationships Between Real-world Events Angelika Romanou Syrielle Montariol Debjit Paul Leo Laugier Karl Aberer Antoine Bosselut NAI 13 19 0 07 Nov 2023
Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review Mingze Yuan Peng Bao Jiajia Yuan Yunhao Shen Zi Chen ... Jie Zhao Yang Chen Li Zhang Lin Shen Bin Dong ELM LM&MA 41 13 0 03 Nov 2023
Chain of Empathy: Enhancing Empathetic Response of Large Language Models Based on Psychotherapy Models Y. Lee Inju Lee Minjung Shin Seoyeon Bae Sowon Hahn LRM AI4CE 14 17 0 02 Nov 2023
Interactive Multi-fidelity Learning for Cost-effective Adaptation of Language Model with Sparse Human Supervision Jiaxin Zhang Zhuohang Li Kamalika Das Kumar Sricharan 23 2 0 31 Oct 2023
Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V Zhiling Yan Kai Zhang Rong-Er Zhou Lifang He Xiang Li Lichao Sun LM&MA 16 48 0 29 Oct 2023
EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images Seongsu Bae Daeun Kyung Jaehee Ryu Eunbyeol Cho Gyubok Lee ... Jungwoo Oh Lei Ji E. Chang Tackeun Kim Edward Choi 34 20 0 28 Oct 2023
Qilin-Med-VL: Towards Chinese Large Vision-Language Model for General Healthcare Junling Liu Ziming Wang Qichen Ye Dading Chong Peilin Zhou Yining Hua VLM LM&MA 19 47 0 27 Oct 2023