CSEPrompts: A Benchmark of Introductory Computer Science Prompts

3 April 2024

Papers citing "CSEPrompts: A Benchmark of Introductory Computer Science Prompts"

5 / 5 papers shown

Title
mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation Nishat Raihan Antonios Anastasopoulos Marcos Zampieri ELM 43 5 0 28 Jan 2025
MojoBench: Language Modeling and Benchmarks for Mojo Nishat Raihan Joanna C. S. Santos Marcos Zampieri 45 2 0 23 Oct 2024
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation Jiawei Liu Chun Xia Yuyao Wang Lingming Zhang ELM ALM 178 780 0 02 May 2023
The AI Teacher Test: Measuring the Pedagogical Ability of Blender and GPT-3 in Educational Dialogues Anaïs Tack Chris Piech ELM 24 90 0 16 May 2022
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation Yue Wang Weishi Wang Shafiq R. Joty S. Hoi 210 1,485 0 02 Sep 2021