v1v2 (latest)

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

International Conference on Learning Representations (ICLR), 2024

12 March 2024

Tianjun Zhang

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code"

50 / 559 papers shown

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

...

458

12 Jun 2025

PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier

302

12 Jun 2025

OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics

...

334

12 Jun 2025

Reinforce LLM Reasoning through Multi-Agent Reflection

Yurun Yuan

Tengyang Xie

LRM

317

10 Jun 2025

SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner

294

10 Jun 2025

ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering

237

10 Jun 2025

Reinforcement Learning Teachers of Test Time Scaling

401

10 Jun 2025

MiniCPM4: Ultra-Efficient LLMs on End Devices

...

311

09 Jun 2025

Can LLMs Generate Reliable Test Case Generators? A Study on Competition-Level Programming Problems

...

255

07 Jun 2025

FinanceReasoning: Benchmarking Financial Numerical Reasoning More Credible, Comprehensive and ChallengingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

...

371

06 Jun 2025

CodeContests+: High-Quality Test Case Generation for Competitive Programming

179

06 Jun 2025

dots.llm1 Technical Report

...

198

06 Jun 2025

Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey

...

295

06 Jun 2025

SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code

300

06 Jun 2025

DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

143

06 Jun 2025

hdl2v: A Code Translation Dataset for Enhanced LLM Verilog GenerationWorkshop on Machine Learning for CAD (ML4CAD), 2025

399

05 Jun 2025

Inference-Time Hyper-Scaling with KV Cache Compression

277

05 Jun 2025

Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning

353

05 Jun 2025

Quantifying Cross-Modality Memorization in Vision-Language Models

332

05 Jun 2025

Enhancing Delta Compression in LLMs via SVD-based Quantization Error Minimization

232

05 Jun 2025

Kinetics: Rethinking Test-Time Scaling Laws

457

05 Jun 2025

Seed-Coder: Let the Code Model Curate Data for Itself

...

342

04 Jun 2025

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

357

03 Jun 2025

AI Scientists Fail Without Strong Implementation Capability

347

02 Jun 2025

TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models

445

02 Jun 2025

VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking

...

271

02 Jun 2025

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

...

345

228

02 Jun 2025

How Programming Concepts and Neurons Are Shared in Code Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Amir Hossein Kargaran

Yihong Liu

François Yvon

Hinrich Schütze

196

01 Jun 2025

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning

248

31 May 2025

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

...

512

30 May 2025

REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

378

30 May 2025

RAST: Reasoning Activation in LLMs via Small-model Transfer

256

30 May 2025

HardTests: Synthesizing High-Quality Test Cases for LLM Coding

321

30 May 2025

Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

321

29 May 2025

VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

275

29 May 2025

Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

...

278

29 May 2025

Infinite-Instruct: Synthesizing Scaling Code instruction Data with Bidirectional Synthesis and Static Verification

184

29 May 2025

Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures

226

29 May 2025

GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

270

29 May 2025

PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics

248

29 May 2025

VERINA: Benchmarking Verifiable Code Generation

220

29 May 2025

What Makes a Good Reasoning Chain? Uncovering Structural Patterns in Long Chain-of-Thought Reasoning

199

28 May 2025

LASER: Stratified Selective Sampling for Instruction Tuning with Dedicated Scoring Strategy

Paramita Mirza

Lucas Weber

Fabian Küch

287

28 May 2025

Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition

...

230

28 May 2025

Scaling Reasoning without Attention

177

28 May 2025

MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement

302

27 May 2025

Code Researcher: Deep Research Agent for Large Systems Code and Commit History

169

27 May 2025

Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning

300

26 May 2025

Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

354

26 May 2025

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

...

OffRL NAI SyDa LRM ELM

330

26 May 2025