Title
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions Hanjie Chen Zhouxiang Fang Yash Singla Mark Dredze ELM AI4MH 34 31 0 28 Feb 2024
Benchmarking Data Science Agents Yuge Zhang Qiyang Jiang Xingyu Han Nan Chen Yuqing Yang Kan Ren ELM 20 9 0 27 Feb 2024
EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries Sunjun Kweon Jiyoun Kim Heeyoung Kwak Dongchul Cha Hangyul Yoon Kwanghyun Kim Jeewon Yang Seunghyun Won Edward Choi LM&MA 19 4 0 25 Feb 2024
Towards Building Multilingual Language Model for Medicine Pengcheng Qiu Chaoyi Wu Xiaoman Zhang Weixiong Lin Haicheng Wang Ya-Qin Zhang Yanfeng Wang Weidi Xie LM&MA ELM 27 64 0 21 Feb 2024
Benchmarking Retrieval-Augmented Generation for Medicine Guangzhi Xiong Qiao Jin Zhiyong Lu Aidong Zhang RALM 75 143 0 20 Feb 2024
Generalization in Healthcare AI: Evaluation of a Clinical Large Language Model Salman Rahman L. Jiang Saadia Gabriel Yindalon Aphinyanagphongs E. Oermann R. Chunara AI4MH LM&MA 6 3 0 14 Feb 2024
Addressing cognitive bias in medical language models Samuel Schmidgall Carl Harris Ime Essien Daniel Olshvang Tawsifur Rahman Ji Woong Kim Rojin Ziaei Jason Eshraghian Peter M Abadir Rama Chellappa ELM 24 20 0 12 Feb 2024
RareBench: Can LLMs Serve as Rare Diseases Specialists? Xuanzhong Chen Xiaohao Mao Qihan Guo Lun Wang Shuyang Zhang Ting Chen ELM LM&MA AI4MH 53 21 0 09 Feb 2024
SymbolicAI: A framework for logic-based approaches combining generative models and solvers Marius-Constantin Dinu Claudiu Leoveanu-Condrei Markus Holzleitner Werner Zellinger Sepp Hochreiter 33 9 0 01 Feb 2024
Development and Testing of a Novel Large Language Model-Based Clinical Decision Support Systems for Medication Safety in 12 Clinical Specialties J. Ong Liyuan Jin Kabilan Elangovan Gilbert Yong San Lim D. Lim ... Xiang Chen J. Chng A. Than Ken Junyang Goh Daniel Ting 15 7 0 29 Jan 2024
Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias Yuhe Ke Rui Yang Sui An Lie Taylor Xin Yi Lim H. Abdullah Daniel Ting Nan Liu AI4CE 6 9 0 26 Jan 2024
Wordflow: Social Prompt Engineering for Large Language Models Zijie J. Wang Aishwarya Chakravarthy David Munechika Duen Horng Chau 17 10 0 25 Jan 2024
A comparative study of zero-shot inference with large language models and supervised modeling in breast cancer pathology classification Madhumita Sushil T. Zack Divneet Mandair Zhiwei Zheng Ahmed Wali Yan-Ning Yu Yuwei Quan A. Butte 20 6 0 25 Jan 2024
Exploring scalable medical image encoders beyond text supervision Fernando Pérez-García Harshita Sharma Sam Bond-Taylor Kenza Bouzid Valentina Salvatelli ... Maria T. A. Wetscherek Noel Codella Stephanie L. Hyland Javier Alvarez-Valle Ozan Oktay LM&MA MedIm 42 9 0 19 Jan 2024
Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering T. Ridnik Dedy Kredo Itamar Friedman 25 56 0 16 Jan 2024
Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine Qiao Jin Fangyuan Chen Yiliang Zhou Ziyang Xu Justin M. Cheung ... Alex Chen Josef A. Brejt Michael F. Chiang Yifan Peng Zhiyong Lu ELM MedIm LM&MA 10 36 0 16 Jan 2024
Designing Heterogeneous LLM Agents for Financial Sentiment Analysis Frank Xing AIFin 17 49 0 11 Jan 2024
Towards Conversational Diagnostic AI Tao Tu Anil Palepu M. Schaekermann Khaled Saab Jan Freyberg ... Katherine Chou Greg S. Corrado Yossi Matias Alan Karthikesalingam Vivek Natarajan AI4MH LM&MA 23 87 0 11 Jan 2024
From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models Na Liu Liangyu Chen Xiaoyu Tian Wei Zou Kaijiang Chen Ming Cui LLMAG 30 28 0 05 Jan 2024
SPEER: Sentence-Level Planning of Long Clinical Summaries via Embedded Entity Retrieval Griffin Adams Jason Zucker Noémie Elhadad 21 4 0 04 Jan 2024
Generalist embedding models are better at short-context clinical semantic search than specialized embedding models Jean-Baptiste Excoffier Tom Roehr Alexei Figueroa Jens-Michalis Papaioannou Keno Bressem Matthieu Ortala 27 4 0 03 Jan 2024
The Tyranny of Possibilities in the Design of Task-Oriented LLM Systems: A Scoping Survey Dhruv Dhamani Mary Lou Maher 27 1 0 29 Dec 2023
The Persuasive Power of Large Language Models Simon Martin Breum Daniel Vaedele Egdal Victor Gram Mortensen Anders Giovanni Møller L. Aiello AI4CE 16 24 0 24 Dec 2023
A Foundational Multimodal Vision Language AI Assistant for Human Pathology Ming Y. Lu Bowen Chen Drew F. K. Williamson Richard J. Chen Kenji Ikamura ... Ivy Liang L. Le Tong Ding Anil V. Parwani Faisal Mahmood MedIm LM&MA 20 19 0 13 Dec 2023
Image and Data Mining in Reticular Chemistry Using GPT-4V Zhiling Zheng Zhiguo He Omar Khattab Nakul Rampal Matei A. Zaharia C. Borgs J. Chayes O. Yaghi 8 1 0 09 Dec 2023
Search Still Matters: Information Retrieval in the Era of Generative AI William R. Hersh 11 16 0 30 Nov 2023
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations Zhicheng YANG Yinya Huang Jing Xiong Liang Feng Xiaodan Liang Yiwei Wang Jing Tang LRM 18 1 0 22 Nov 2023
More Samples or More Prompts? Exploring Effective In-Context Sampling for LLM Few-Shot Prompt Engineering Bingsheng Yao Guiming Hardy Chen Ruishi Zou Yuxuan Lu Jiachen Li Shao Zhang Yisi Sang Sijia Liu James A. Hendler Dakuo Wang 30 13 0 16 Nov 2023
Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis Kexin Chen Junyou Li Kunyi Wang Yuyang Du Jiahui Yu ... Jianzhang Pan Yi Huang Qun Fang Pheng Ann Heng Guangyong Chen 24 8 0 16 Nov 2023
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge Hongjian Zhou Fenglin Liu Boyang Gu Xinyu Zou Jinfa Huang ... Yefeng Zheng Lei A. Clifton Zheng Li Fenglin Liu David A. Clifton LM&MA 31 106 0 09 Nov 2023
Diversity of Thought Improves Reasoning Abilities of LLMs Ranjita Naik Varun Chandrasekaran Mert Yuksekgonul Hamid Palangi Besmira Nushi LRM 21 6 0 11 Oct 2023
Conversational Health Agents: A Personalized LLM-Powered Agent Framework Mahyar Abbasian Iman Azimi Amir M. Rahmani Ramesh C. Jain AI4CE LM&MA 21 69 0 03 Oct 2023
Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges Hiba Ahsan Denis Jered McInerney Jisoo Kim Christopher Potter Geoffrey S. Young Silvio Amir Byron C. Wallace 17 12 0 08 Sep 2023
Matching Patients to Clinical Trials with Large Language Models Qiao Jin Zifeng Wang C. Floudas Fangyuan Chen Changlin Gong Dara Bracken-Clarke Elisabetta Xue Yifan Yang Jimeng Sun Zhiyong Lu LM&MA 13 88 0 27 Jul 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 206 2,232 0 22 Mar 2023
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
What Makes Good In-Context Examples for GPT- $3$ ? Jiachang Liu Dinghan Shen Yizhe Zhang Bill Dolan Lawrence Carin Weizhu Chen AAML RALM 275 1,296 0 17 Jan 2021
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 202 791 0 13 Sep 2019