HEAD-QA: A Healthcare Dataset for Complex Reasoning

Annual Meeting of the Association for Computational Linguistics (ACL), 2019

11 June 2019

David Vilares

Carlos Gómez-Rodríguez

ArXiv (abs)PDF HTML

Papers citing "HEAD-QA: A Healthcare Dataset for Complex Reasoning"

50 / 72 papers shown

OctoMed: Data Recipes for State-of-the-Art Multimodal Medical Reasoning

283

28 Nov 2025

Structured Prompts Improve Evaluation of Language Models

Asad Aali

Muhammad Ahmed Mohsin

...

326

25 Nov 2025

HEAD-QA v2: Expanding a Healthcare Benchmark for Reasoning

Alexis Correa-Guillén

Carlos Gómez-Rodríguez

David Vilares

CML ELM LRM

323

19 Nov 2025

IMB: An Italian Medical Benchmark for Question Answering

266

21 Oct 2025

Rethinking RL Evaluation: Can Benchmarks Truly Reveal Failures of RL Methods?

132

12 Oct 2025

From Guidelines to Guarantees: A Graph-Based Evaluation Harness for Domain-Specific Evaluation of LLMs

Jessica Lundin

Guillaume Chabot-Couture

ELM

136

28 Aug 2025

Proximal Supervised Fine-Tuning

149

25 Aug 2025

HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways

165

10 Aug 2025

Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models

269

06 Aug 2025

MedVLThinker: Simple Baselines for Multimodal Medical Reasoning

327

04 Aug 2025

FPEdit: Robust LLM Fingerprinting through Localized Parameter Editing

296

04 Aug 2025

MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation

Adrien Bazoge

ELM

210

28 Jul 2025

A Hybrid Early-Exit Algorithm for Large Language Models Based on Space Alignment Decoding (SPADE)

179

23 Jul 2025

Train-before-Test Harmonizes Language Model Rankings

Guanhua Zhang

Ricardo Dominguez-Olmedo

Moritz Hardt

ALM

265

07 Jul 2025

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

241

01 Jul 2025

LASER: Stratified Selective Sampling for Instruction Tuning with Dedicated Scoring Strategy

Paramita Mirza

Lucas Weber

Fabian Küch

415

28 May 2025

Research Community Perspectives on "Intelligence" and Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Bertram Højer

Terne Sasha Thorn Jakobsen

Anna Rogers

Stefan Heinrich

228

27 May 2025

Disentangling Reasoning and Knowledge in Medical Large Language Models

...

473

16 May 2025

GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

...

524

01 Apr 2025

Advancing Problem-Based Learning in Biomedical Engineering in the Era of Generative AI

May D. Wang

314

20 Mar 2025

MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

...

365

10 Mar 2025

BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning

583

23 Feb 2025

WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Juan Carlos Climent Pardo

...

Hugo J. W. L. Aerts

Leo Anthony Celi

A. I. Wong

Danielle S. Bitterman

Jack Gallifant

229

16 Oct 2024

Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family ExpertsInternational Conference on Learning Representations (ICLR), 2024

Xidong Wang

361

14 Oct 2024

CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative StructuresConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Ekaterina Sviridova

309

07 Oct 2024

Beyond Fine-tuning: Unleashing the Potential of Continuous Pretraining for Clinical LLMsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Clément Christophe

Tathagata Raha

Svetlana Maslenkova

Muhammad Umar Salman

Praveen K Kanithi

Marco AF Pimentel

Shadab Khan

LM&MA

265

23 Sep 2024

Med42-v2: A Suite of Clinical LLMs

Clément Christophe

Praveen K Kanithi

Tathagata Raha

Shadab Khan

Marco AF Pimentel

ELM LM&MA AI4MH

338

12 Aug 2024

Data Contamination Report from the 2024 CONDA Shared Task

Iker García-Ferrero

...

Yu-Min Tseng

320

31 Jul 2024

CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare

Min Yang

277

29 Jul 2024

Stay Tuned: An Empirical Study of the Impact of Hyperparameters on LLM Tuning in Real-World Applications

Michal Shmueli-Scheuer

Noam Slonim

286

25 Jul 2024

M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering

Anand Subramanian

Viktor Schlegel

Abhinav Ramesh Kashyap

Thanh-Tung Nguyen

Vijay Prakash Dwivedi

Stefan Winkler

ELM LM&MA AI4MH

196

06 Jun 2024

Med42 -- Evaluating Fine-Tuning Strategies for Medical LLMs: Full-Parameter vs. Parameter-Efficient Approaches

Clément Christophe

Praveen K Kanithi

Tathagata Raha

...

Boulbaba Ben Amor

Marco AF Pimentel

Shadab Khan

AI4MH LM&MA

265

23 Apr 2024

CT-Agent: Clinical Trial Multi-Agent with Large Language Model-based Reasoning

Ling Yue

Tianfan Fu

LLMAG LRM ELM

181

23 Apr 2024

SciDaSynth: Interactive Structured Data Extraction from Scientific Literature with Large Language ModelCampbell Systematic Reviews (Campbell Syst Rev), 2024

407

21 Apr 2024

Improving Health Question Answering with Reliable and Time-Aware Evidence Retrieval

Juraj Vladika

Florian Matthes

RALM

277

12 Apr 2024

MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering

268

08 Apr 2024

Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People

Xiang Wan

Haizhou Li

Benyou Wang

LM&MA

348

06 Mar 2024

KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations

Edward Choi

220

03 Mar 2024

Towards Building Multilingual Language Model for Medicine

549

172

21 Feb 2024

OLMo: Accelerating the Science of Language Models

Dirk Groeneveld

Iz Beltagy

Pete Walsh

Akshita Bhagia

Rodney Michael Kinney

...

Jesse Dodge

Kyle Lo

Luca Soldaini

Noah A. Smith

Hanna Hajishirzi

OSLM

716

604

01 Feb 2024

Instructional Fingerprinting of Large Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Pang Wei Koh

308

21 Jan 2024

Catwalk: A Unified Language Model Evaluation Framework for Many Datasets

Dirk Groeneveld

Anas Awadalla

Iz Beltagy

Akshita Bhagia

Ian H. Magnusson

Hao Peng

Oyvind Tafjord

Pete Walsh

Kyle Richardson

Jesse Dodge

283

15 Dec 2023

Explanatory Argument Extraction of Correct Answers in Resident Medical Exams

250

01 Dec 2023

Ascle: A Python Natural Language Processing Toolkit for Medical Text Generation

...

271

28 Nov 2023

AlpaCare:Instruction-tuned Large Language Models for Medical Application

557

23 Oct 2023

Emerging Challenges in Personalized Medicine: Assessing Demographic Effects on Biomedical Question Answering SystemsInternational Joint Conference on Natural Language Processing (IJCNLP), 2023

Sagi Shaier

Kevin Bennett

Lawrence E Hunter

Katharina von der Wense

219

16 Oct 2023

Med-HALT: Medical Domain Hallucination Test for Large Language ModelsConference on Computational Natural Language Learning (CoNLL), 2023

Ankit Pal

Logesh Kumar Umapathi

Malaikannan Sankarasubbu

HILM LM&MA VLM

372

231

28 Jul 2023

A Comprehensive Overview of Large Language ModelsACM Transactions on Intelligent Systems and Technology (ACM TIST), 2023

Saeed Anwar

Muhammad Usman

1.2K

1,425

12 Jul 2023

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

Guilherme Penedo

Quentin Malartic

Daniel Hesslow

Ruxandra-Aimée Cojocaru

514

918

01 Jun 2023

RWKV: Reinventing RNNs for the Transformer EraConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

...

Rui-Jie Zhu

737

946

22 May 2023