Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2107.03374
Cited By

Evaluating Large Language Models Trained on Code

v1v2 (latest)

Evaluating Large Language Models Trained on Code

7 July 2021

Henrique Pondé

Harrison Edwards

Nicholas Joseph

Gretchen Krueger

Mohammad Bavarian

Philippe Tillet

Matthias Plappert

Fotios Chantzis

Elizabeth Barnes

Ariel Herbert-Voss

William H. Guss

Igor Babuschkin

William Saunders

Christopher Hesse

Wojciech Zaremba

ArXiv (abs)PDF HTML HuggingFace (8 upvotes)

Papers citing "Evaluating Large Language Models Trained on Code"

50 / 4,503 papers shown

SoK: Are Watermarks in LLMs Ready for Deployment?

SoK: Are Watermarks in LLMs Ready for Deployment?

Abdallah Khreishah

164

1

0

24 Dec 2025

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Security

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Security

150

0

0

04 Dec 2025

Counting Without Running: Evaluating LLMs' Reasoning About Code Complexity

Counting Without Running: Evaluating LLMs' Reasoning About Code Complexity

Giorgis Georgakoudis

Harshitha Menon

Kirk W. Cameron

235

0

0

04 Dec 2025

ADAPT: Learning Task Mixtures for Budget-Constrained Instruction Tuning

ADAPT: Learning Task Mixtures for Budget-Constrained Instruction Tuning

Abhishek Upperwal

126

0

0

04 Dec 2025

Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning

Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning

133

0

0

04 Dec 2025

Eval Factsheets: A Structured Framework for Documenting AI Evaluations

Eval Factsheets: A Structured Framework for Documenting AI Evaluations

Evangelia Spiliopoulou

49

0

0

03 Dec 2025

From FLOPs to Footprints: The Resource Cost of Artificial Intelligence

From FLOPs to Footprints: The Resource Cost of Artificial Intelligence

Lisa Biber-Freudenberger

Aimee van Wynsberghe

25

0

0

03 Dec 2025

Decoding Large Language Diffusion Models with Foreseeing Movement

Decoding Large Language Diffusion Models with Foreseeing Movement

80

0

0

03 Dec 2025

Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks

Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks

Gianni Molinari

Fabio Ciravegna

37

0

0

03 Dec 2025

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language Model Architectures

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language Model Architectures

0

0

0

03 Dec 2025

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

99

0

0

03 Dec 2025

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

119

0

0

03 Dec 2025

CryptoQA: A Large-scale Question-answering Dataset for AI-assisted Cryptography

CryptoQA: A Large-scale Question-answering Dataset for AI-assisted Cryptography

Andreas Bulling

129

0

0

02 Dec 2025

Feedback Loops and Code Perturbations in LLM-based Software Engineering: A Case Study on a C-to-Rust Translation System

Feedback Loops and Code Perturbations in LLM-based Software Engineering: A Case Study on a C-to-Rust Translation System

Jesko Hecking-Harbusch

Matthias Woehrle

93

0

0

02 Dec 2025

Enhancing Automated Paper Reproduction via Prompt-Free Collaborative Agents

Enhancing Automated Paper Reproduction via Prompt-Free Collaborative Agents

56

0

0

02 Dec 2025

Large Language Models Cannot Reliably Detect Vulnerabilities in JavaScript: The First Systematic Benchmark and Evaluation

Large Language Models Cannot Reliably Detect Vulnerabilities in JavaScript: The First Systematic Benchmark and Evaluation

122

0

0

01 Dec 2025

SynthStrategy: Extracting and Formalizing Latent Strategic Insights from LLMs in Organic Chemistry

SynthStrategy: Extracting and Formalizing Latent Strategic Insights from LLMs in Organic Chemistry

Daniel Armstrong

Philippe Schwaller

71

0

0

01 Dec 2025

DrawingBench: Evaluating Spatial Reasoning and UI Interaction Capabilities of Large Language Models through Mouse-Based Drawing Tasks

DrawingBench: Evaluating Spatial Reasoning and UI Interaction Capabilities of Large Language Models through Mouse-Based Drawing Tasks

61

0

0

01 Dec 2025

BackportBench: A Multilingual Benchmark for Automated Backporting of Patches

73

0

0

01 Dec 2025

MindFuse: Towards GenAI Explainability in Marketing Strategy Co-Creation

Aleksandr Farseev

Ilia Gossoudarev

Yu-Yi Chu-Farseeva

Sergey I. Nikolenko

9

2

0

01 Dec 2025

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reliability, and Cost

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reliability, and Cost

Anna Dutkiewicz

171

0

0

01 Dec 2025

TradeTrap: Are LLM-based Trading Agents Truly Reliable and Faithful?

TradeTrap: Are LLM-based Trading Agents Truly Reliable and Faithful?

341

0

0

01 Dec 2025

InnoGym: Benchmarking the Innovation Potential of AI Agents

Jingsheng Zheng

...

57

1

0

01 Dec 2025

HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding

HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding

...

70

0

0

30 Nov 2025

Bias Injection Attacks on RAG Databases and Sanitization Defenses

Bias Injection Attacks on RAG Databases and Sanitization Defenses

328

0

0

30 Nov 2025

CodeDistiller: Automatically Generating Code Libraries for Scientific Coding Agents

CodeDistiller: Automatically Generating Code Libraries for Scientific Coding Agents

Peter Alexander Jansen

Pragnya Narasimha

35

0

0

30 Nov 2025

WaterSearch: A Quality-Aware Search-based Watermarking Framework for Large Language Models

WaterSearch: A Quality-Aware Search-based Watermarking Framework for Large Language Models

340

0

0

30 Nov 2025

Trification: A Comprehensive Tree-based Strategy Planner and Structural Verification for Fact-Checking

Trification: A Comprehensive Tree-based Strategy Planner and Structural Verification for Fact-Checking

Anab Maulana Barik

39

0

0

29 Nov 2025

EduEval: A Hierarchical Cognitive Benchmark for Evaluating Large Language Models in Chinese Education

EduEval: A Hierarchical Cognitive Benchmark for Evaluating Large Language Models in Chinese Education

326

0

0

29 Nov 2025

G-KV: Decoding-Time KV Cache Eviction with Global Attention

Saravan Rajmohan

75

0

0

29 Nov 2025

Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

246

0

0

28 Nov 2025

TreeCoder: Systematic Exploration and Optimisation of Decoding and Constraints for LLM Code Generation

TreeCoder: Systematic Exploration and Optimisation of Decoding and Constraints for LLM Code Generation

Henrijs Princis

73

0

0

27 Nov 2025

PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic Sketch Collaboration

PRISM: Privacy-Aware Routing for Adaptive Cloud-Edge LLM Inference via Semantic Sketch Collaboration

116

0

0

27 Nov 2025

Decomposed Trust: Exploring Privacy, Adversarial Robustness, Fairness, and Ethics of Low-Rank LLMs

Decomposed Trust: Exploring Privacy, Adversarial Robustness, Fairness, and Ethics of Low-Rank LLMs

Daniel Agyei Asante

Md Mokarram Chowdhury

88

0

0

27 Nov 2025

From Bits to Rounds: Parallel Decoding with Exploration for Diffusion Language Models

From Bits to Rounds: Parallel Decoding with Exploration for Diffusion Language Models

Venkat Srinivasan

226

0

0

26 Nov 2025

Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models

Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models

317

0

0

26 Nov 2025

DSD: A Distributed Speculative Decoding Solution for Edge-Cloud Agile Large Model Serving

DSD: A Distributed Speculative Decoding Solution for Edge-Cloud Agile Large Model Serving

199

0

0

26 Nov 2025

BRIDGE: Building Representations In Domain Guided Program Verification

BRIDGE: Building Representations In Domain Guided Program Verification

Robert Joseph George

Carson Eisenach

Dominique C. Perrault-Joncas

Dean Phillips Foster

398

0

0

26 Nov 2025

RPM-MCTS: Knowledge-Retrieval as Process Reward Model with Monte Carlo Tree Search for Code Generation

RPM-MCTS: Knowledge-Retrieval as Process Reward Model with Monte Carlo Tree Search for Code Generation

175

0

0

25 Nov 2025

Mosaic Pruning: A Hierarchical Framework for Generalizable Pruning of Mixture-of-Experts Models

Mosaic Pruning: A Hierarchical Framework for Generalizable Pruning of Mixture-of-Experts Models

Shuangyong Song

131

2

0

25 Nov 2025

Can Vibe Coding Beat Graduate CS Students? An LLM vs. Human Coding Tournament on Market-driven Strategic Planning

Can Vibe Coding Beat Graduate CS Students? An LLM vs. Human Coding Tournament on Market-driven Strategic Planning

Panayiotis Danassis

41

0

0

25 Nov 2025

DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs

DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs

AI4TS KELM LRM AI4CE

390

0

0

25 Nov 2025

CLIMATEAGENT: Multi-Agent Orchestration for Complex Climate Data Science Workflows

CLIMATEAGENT: Multi-Agent Orchestration for Complex Climate Data Science Workflows

304

0

0

25 Nov 2025

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stochastic Tree-of-Thoughts Patch Generation

R3A: Reliable RTL Repair Framework with Multi-Agent Fault Localization and Stochastic Tree-of-Thoughts Patch Generation

303

0

0

25 Nov 2025

Supporting Students in Navigating LLM-Generated Insecure Code

Supporting Students in Navigating LLM-Generated Insecure Code

93

0

0

25 Nov 2025

NNGPT: Rethinking AutoML with Large Language Models

NNGPT: Rethinking AutoML with Large Language Models

Tolgay Atinc Uzun

Yashkumar Sanjaybhai Dhameliya

...

Chandini Vysyaraju

Raghuvir Duvvuri

215

6

0

25 Nov 2025

Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios

Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios

173

0

0

25 Nov 2025

Optimizing LLM Code Suggestions: Feedback-Driven Timing with Lightweight State Bounds

Optimizing LLM Code Suggestions: Feedback-Driven Timing with Lightweight State Bounds

Mohammad Nour Al Awad

69

0

0

24 Nov 2025

SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning

SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning

David Jiahao Fu

Aaron Councilman

128

0

0

24 Nov 2025

DUALGUAGE: Automated Joint Security-Functionality Benchmarking for Secure Code Generation

DUALGUAGE: Automated Joint Security-Functionality Benchmarking for Secure Code Generation

Abhijeet Pathak

Dinesh Gudimetla

116

0

0

24 Nov 2025

1 2 3 4...89 90 91