v1v2 (latest)

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

International Conference on Learning Representations (ICLR), 2024

12 March 2024

Tianjun Zhang

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code"

50 / 559 papers shown

OptiHive: Ensemble Selection for LLM-Based Optimization via Statistical Modeling

Maxime Bouscary

Saurabh Amin

111

04 Aug 2025

Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models

298

01 Aug 2025

UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents

278

01 Aug 2025

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

...

369

31 Jul 2025

Unveiling Super Experts in Mixture-of-Experts Large Language Models

277

31 Jul 2025

League of LLMs: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models

Xiaofeng Wang

Baosheng Wang

ELM

191

30 Jul 2025

IFEvalCode: Controlled Code Generation

...

234

30 Jul 2025

Kimi K2: Open Agentic Intelligence

...

179

28 Jul 2025

TypyBench: Evaluating LLM Type Inference for Untyped Python Repositories

208

28 Jul 2025

Diversity-Enhanced Reasoning for Subjective Questions

488

27 Jul 2025

CodeEvo: Interaction-Driven Synthesis of Code-centric Data through Hybrid and Iterative Feedback

151

25 Jul 2025

MemoCoder: Automated Function Synthesis using LLM-Supported Agents

211

24 Jul 2025

WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training

251

23 Jul 2025

R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning

416

23 Jul 2025

Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models

385

23 Jul 2025

Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling

...

255

20 Jul 2025

AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?

...

281

19 Jul 2025

Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models

18 Jul 2025

GitChameleon 2.0: Evaluating AI Code Generation Against Python Library Version Incompatibilities

...

Samira Ebrahimi Kahou

Massimo Caccia

ELM

231

16 Jul 2025

Quantum Machine Learning in Multi-Qubit Phase-Space Part I: Foundations

315

16 Jul 2025

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks

...

123

16 Jul 2025

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks

170

14 Jul 2025

VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains

271

14 Jul 2025

RedOne: Revealing Domain-specific LLM Post-Training in Social Networking Services

...

219

13 Jul 2025

AICrypto: A Comprehensive Benchmark for Evaluating Cryptography Capabilities of Large Language Models

...

372

13 Jul 2025

KAT-V1: Kwai-AutoThink Technical Report

...

339

11 Jul 2025

Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning

238

07 Jul 2025

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

...

223

07 Jul 2025

Controlling Thinking Speed in Reasoning Models

141

04 Jul 2025

Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling

337

02 Jul 2025

Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

200

01 Jul 2025

Lost at the Beginning of Reasoning

211

27 Jun 2025

Double-Checker: Enhancing Reasoning of Slow-Thinking LLMs via Self-Critical Fine-Tuning

...

289

26 Jun 2025

LastingBench: Defend Benchmarks Against Knowledge Leakage

276

21 Jun 2025

Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

...

240

19 Jun 2025

OJBench: A Competition Level Code Benchmark For Large Language Models

...

231

19 Jun 2025

LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning

272

19 Jun 2025

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

...

260

17 Jun 2025

Optimizing Length Compression in Large Reasoning Models

289

17 Jun 2025

Cost-Efficient Serving of LLM Agents via Test-Time Plan Caching

Qizheng Zhang

Michael Wornow

Kunle Olukotun

225

17 Jun 2025

Reasoning with Exploration: An Entropy Perspective

327

125

17 Jun 2025

Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs

...

433

17 Jun 2025

xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations

...

354

16 Jun 2025

FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation

201

16 Jun 2025

AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

178

16 Jun 2025

Humanity's Last Code Exam: Can Advanced LLMs Conquer Human's Hardest Code Competition?

152

15 Jun 2025

TreeRL: LLM Reinforcement Learning with On-Policy Tree SearchAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

193

13 Jun 2025

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

258

13 Jun 2025

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and ExposureAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

202

13 Jun 2025

OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics

...

334

12 Jun 2025