ScenEval: A Benchmark for Scenario-Based Evaluation of Code Generation

18 June 2024

Papers citing "ScenEval: A Benchmark for Scenario-Based Evaluation of Code Generation"

2 / 2 papers shown

Title
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation Jiawei Liu Chun Xia Yuyao Wang Lingming Zhang ELM ALM 172 388 0 02 May 2023
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He D. Song Jacob Steinhardt ELM AIMat ALM 192 614 0 20 May 2021