NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear Domain

17 October 2023

Papers citing "NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear Domain"

3 / 3 papers shown

Title
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models Potsawee Manakul Adian Liusie Mark J. F. Gales HILM LRM 147 386 0 15 Mar 2023
BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing Jason Alan Fries Leon Weber Natasha Seelam Gabriel Altay Debajyoti Datta ... Minh Chien Vu Trishala Neeraj Jonas Golde Albert Villanova del Moral Benjamin Beilharz LM&MA 93 45 0 30 Jun 2022
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018