v1v2 (latest)

OSS-Bench: Benchmark Generator for Coding LLMs

18 May 2025

Yuancheng Jiang

Roland Yap

Zhenkai Liang

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)Github (40023★)

Papers citing "OSS-Bench: Benchmark Generator for Coding LLMs"

15 / 15 papers shown

LL3M: Large Language 3D Modelers

194

11 Aug 2025

SecRepoBench: Benchmarking Code Agents for Secure Code Completion in Real-World Repositories

367

29 Apr 2025

CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation

944

05 Mar 2025

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

...

488

02 Jan 2025

Fuzzing the PHP Interpreter via Dataflow Fusion

262

29 Oct 2024

Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models

Yaojie Lu

Xianpei Han

Le Sun

ALM

252

16 Jul 2024

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

Wenhao Yu

...

David Lo

Daniel Fried

Xiaoning Du

H. D. Vries

Leandro von Werra

789

453

22 Jun 2024

HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual Natural Language Generalization

386

26 Feb 2024

ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code

Zefan Cai

...

Arman Cohan

452

16 Nov 2023

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?International Conference on Learning Representations (ICLR), 2023

Alexander Wettig

Ofir Press

545

1,851

10 Oct 2023

Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code GenerationNeural Information Processing Systems (NeurIPS), 2023

1.2K

1,605

02 May 2023

CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-XKnowledge Discovery and Data Mining (KDD), 2023

Yuxiao Dong

...

465

512

30 Mar 2023

CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models

Mario Fritz

409

08 Feb 2023

Evaluating Large Language Models Trained on Code

...

2.7K

9,078

07 Jul 2021

SPoC: Search-based Pseudocode to CodeNeural Information Processing Systems (NeurIPS), 2019

364

309

12 Jun 2019