v1v2 (latest)

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

International Conference on Learning Representations (ICLR), 2024

12 March 2024

Tianjun Zhang

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code"

9 / 559 papers shown

HFT: Half Fine-Tuning for Large Language Models

Weiran Xu

295

29 Apr 2024

Can Language Models Solve Olympiad Programming?

334

16 Apr 2024

CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

...

Ge Zhang

341

04 Apr 2024

Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM

Chun Xia

Yinlin Deng

Lingming Zhang

ALM ELM

176

28 Mar 2024

Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive

410

213

20 Feb 2024

AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability

188

14 Feb 2024

Mercury: A Code Efficiency Benchmark for Code Large Language Models

See-Kiong Ng

350

12 Feb 2024

Reinforcement Learning from Automatic Feedback for High-Quality Unit Test GenerationWorkshop on Deep Learning for Testing and Testing for Deep Learning (LTTDL), 2023

429

03 Oct 2023

WizardCoder: Empowering Code Large Language Models with Evol-InstructInternational Conference on Learning Representations (ICLR), 2023

723

859

14 Jun 2023