CODE-DITING: A Reasoning-Based Metric for Functional Alignment in Code Evaluation

26 May 2025

Papers citing "CODE-DITING: A Reasoning-Based Metric for Functional Alignment in Code Evaluation"

24 / 24 papers shown

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks

167

14 Jul 2025

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for CodingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

436

04 Mar 2025

Preference Leakage: A Contamination Problem in LLM-as-a-judge

599

03 Feb 2025

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

...

OffRL AI4TS LRM ReLM VLM

1.2K

5,342

22 Jan 2025

From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

...

1.1K

287

25 Nov 2024

OpenCoder: The Open Cookbook for Top-Tier Code Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

J.K. Liu

...

479

07 Nov 2024

CodeJudge: Evaluating Code Generation with Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Weixi Tong

Tianyi Zhang

ELM ALM

143

03 Oct 2024

Qwen2.5-Coder Technical Report

Binyuan Hui

Jian Yang

Zeyu Cui

Jiaxi Yang

Dayiheng Liu

...

Fei Huang

Xingzhang Ren

Xuancheng Ren

Jingren Zhou

Junyang Lin

OSLM

335

828

18 Sep 2024

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

Wenhao Yu

...

David Lo

Daniel Fried

Xiaoning Du

H. D. Vries

Leandro von Werra

603

371

22 Jun 2024

Benchmarks and Metrics for Evaluations of Code Generation: A Critical ReviewInternational Conference on Artificial Intelligence Testing (ICAIT), 2024

189

18 Jun 2024

On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation

Atharva Naik

234

26 Apr 2024

PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language ModelsNeural Information Processing Systems (NeurIPS), 2024

644

193

03 Apr 2024

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

...

416

1,348

25 Jan 2024

Efficient Memory Management for Large Language Model Serving with PagedAttentionSymposium on Operating Systems Principles (SOSP), 2023

1.6K

4,229

12 Sep 2023

Large Language Models for Software Engineering: A Systematic Literature ReviewACM Transactions on Software Engineering and Methodology (TOSEM), 2023

Kailong Wang

Haoyu Wang

358

756

21 Aug 2023

Judging LLM-as-a-Judge with MT-Bench and Chatbot ArenaNeural Information Processing Systems (NeurIPS), 2023

...

3.2K

6,617

09 Jun 2023

Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code GenerationNeural Information Processing Systems (NeurIPS), 2023

1.1K

1,396

02 May 2023

ICE-Score: Instructing Large Language Models to Evaluate CodeFindings (Findings), 2023

Terry Yue Zhuo

ELM ALM

328

27 Apr 2023

CodeBERTScore: Evaluating Code Generation with Pretrained Models of CodeConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Graham Neubig

257

151

10 Feb 2023

Who Evaluates the Evaluators? On Automatic Metrics for Assessing AI-based Offensive Code GeneratorsExpert systems with applications (ESWA), 2022

515

12 Dec 2022

Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsNeural Information Processing Systems (NeurIPS), 2022

2.3K

14,608

28 Jan 2022

Evaluating Large Language Models Trained on Code

...

2.1K

7,722

07 Jul 2021

CodeBLEU: a Method for Automatic Evaluation of Code Synthesis

454

738

22 Sep 2020

Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

1.2K

19,884

06 Feb 2015