Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2107.03374
Cited By

Evaluating Large Language Models Trained on Code

v1v2 (latest)

Evaluating Large Language Models Trained on Code

7 July 2021

Henrique Pondé

Harrison Edwards

Nicholas Joseph

Gretchen Krueger

Mohammad Bavarian

Philippe Tillet

Matthias Plappert

Fotios Chantzis

Elizabeth Barnes

Ariel Herbert-Voss

William H. Guss

Igor Babuschkin

William Saunders

Christopher Hesse

Wojciech Zaremba

ArXiv (abs)PDF HTML HuggingFace (8 upvotes)

Papers citing "Evaluating Large Language Models Trained on Code"

50 / 4,505 papers shown

Leveraging Knowledge Graphs and LLM Reasoning to Identify Operational Bottlenecks for Warehouse Planning Assistance

Leveraging Knowledge Graphs and LLM Reasoning to Identify Operational Bottlenecks for Warehouse Planning Assistance

Saisubramaniam Gopalakrishnan

83

0

0

23 Jul 2025

C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning

C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning

...

170

4

0

22 Jul 2025

ACT: Bridging the Gap in Code Translation through Synthetic Data Generation & Adaptive Training

ACT: Bridging the Gap in Code Translation through Synthetic Data Generation & Adaptive Training

71

0

0

22 Jul 2025

Benchmarking LLM Privacy Recognition for Social Robot Decision Making

Benchmarking LLM Privacy Recognition for Social Robot Decision Making

Dakota Sullivan

Heather Kirkorian

229

2

0

22 Jul 2025

Can External Validation Tools Improve Annotation Quality for LLM-as-a-Judge?

Can External Validation Tools Improve Annotation Quality for LLM-as-a-Judge?Annual Meeting of the Association for Computational Linguistics (ACL), 2025

147

3

0

22 Jul 2025

Towards Enforcing Company Policy Adherence in Agentic Workflows

Towards Enforcing Company Policy Adherence in Agentic Workflows

Naama Zwerdling

Ella Rabinovich

Ateret Anaby-Tavor

165

0

0

22 Jul 2025

LOCOFY Large Design Models -- Design to code conversion solution

LOCOFY Large Design Models -- Design to code conversion solution

Sohaib Muhammad

102

0

0

22 Jul 2025

LoRA is All You Need for Safety Alignment of Reasoning LLMs

LoRA is All You Need for Safety Alignment of Reasoning LLMs

Baharan Mirzasoleiman

346

1

0

22 Jul 2025

Evaluating Generative AI Tools for Personalized Offline Recommendations: A Comparative Study

Evaluating Generative AI Tools for Personalized Offline Recommendations: A Comparative Study

Rafael Salinas-Buestan

Nelly Condori-Fernandez

Maria Fernanda Granda

42

0

0

22 Jul 2025

AlgoSimBench: Identifying Algorithmically Similar Problems for Competitive Programming

AlgoSimBench: Identifying Algorithmically Similar Problems for Competitive Programming

Raymond J. Mooney

195

0

0

21 Jul 2025

ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution

ASPERA: A Simulated Environment to Evaluate Planning for Complex Action ExecutionAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Bo-Hsiang Tseng

Héctor Martínez Alonso

Diarmuid Ó Séaghdha

Anders Johannsen

178

0

0

21 Jul 2025

Pixels, Patterns, but No Poetry: To See The World like Humans

Pixels, Patterns, but No Poetry: To See The World like Humans

Longxiang Zhang

...

159

4

0

21 Jul 2025

3LM: Bridging Arabic, STEM, and Code through Benchmarking

3LM: Bridging Arabic, STEM, and Code through Benchmarking

Basma El Amel Boussaha

Mugariya Farooq

Shaikha Alsuwaidi

Giulia Campesan

Ahmed Alzubaidi

Mohammed Alyafeai

295

2

0

21 Jul 2025

Scaling Decentralized Learning with FLock

Scaling Decentralized Learning with FLock

235

0

0

21 Jul 2025

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

171

2

0

21 Jul 2025

Reasoning Models are Test Exploiters: Rethinking Multiple-Choice

Reasoning Models are Test Exploiters: Rethinking Multiple-Choice

Kevin Leyton-Brown

207

3

0

21 Jul 2025

GasAgent: A Multi-Agent Framework for Automated Gas Optimization in Smart Contracts

GasAgent: A Multi-Agent Framework for Automated Gas Optimization in Smart Contracts

147

3

0

21 Jul 2025

Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

168

0

0

20 Jul 2025

PromptSuite: A Task-Agnostic Framework for Multi-Prompt Generation

PromptSuite: A Task-Agnostic Framework for Multi-Prompt Generation

Gabriel Stanovsky

343

1

0

20 Jul 2025

MultiKernelBench: A Multi-Platform Benchmark for Kernel Generation

MultiKernelBench: A Multi-Platform Benchmark for Kernel Generation

176

7

0

20 Jul 2025

AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?

AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?

Samuel K. Ainsworth

...

Matthias Bethge

283

4

0

19 Jul 2025

TopicAttack: An Indirect Prompt Injection Attack via Topic Transition

TopicAttack: An Indirect Prompt Injection Attack via Topic Transition

220

6

0

18 Jul 2025

SoftPipe: A Soft-Guided Reinforcement Learning Framework for Automated Data Preparation

SoftPipe: A Soft-Guided Reinforcement Learning Framework for Automated Data Preparation

202

0

0

18 Jul 2025

Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models

Promptomatix: An Automatic Prompt Optimization Framework for Large Language Models

Shelby Heinecke

Silvio Savarese

301

6

0

17 Jul 2025

QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation

QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation

228

11

0

17 Jul 2025

Towards Formal Verification of LLM-Generated Code from Natural Language Prompts

Towards Formal Verification of LLM-Generated Code from Natural Language Prompts

Aaron Councilman

David Jiahao Fu

87

5

0

17 Jul 2025

QSpark: Towards Reliable Qiskit Code Generation

QSpark: Towards Reliable Qiskit Code Generation

Andriy Miranskyy

199

2

0

16 Jul 2025

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks

Artem Chervyakov

Alexander Kharitonov

Pavel Zadorozhny

Rodion Levichev

...

Anton A. Emelyanov

Vladimir Ivanov

Valentin Malykh

Alena Fenogenova

125

0

0

16 Jul 2025

GitChameleon 2.0: Evaluating AI Code Generation Against Python Library Version Incompatibilities

GitChameleon 2.0: Evaluating AI Code Generation Against Python Library Version Incompatibilities

...

Muawiz Chaudhary

Eilif B. Muller

Samira Ebrahimi Kahou

231

1

0

16 Jul 2025

Kodezi Chronos: A Debugging-First Language Model for Repository-Scale Code Understanding

Kodezi Chronos: A Debugging-First Language Model for Repository-Scale Code Understanding

320

0

0

14 Jul 2025

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks

CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks

170

9

0

14 Jul 2025

ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning

ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning

203

2

0

14 Jul 2025

FusionFactory: Fusing LLM Capabilities with Multi-LLM Log Data

FusionFactory: Fusing LLM Capabilities with Multi-LLM Log Data

Mohammad Shoeybi

Bryan Catanzaro

203

0

0

14 Jul 2025

CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance

CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance

192

1

0

14 Jul 2025

AICrypto: A Comprehensive Benchmark for Evaluating Cryptography Capabilities of Large Language Models

AICrypto: A Comprehensive Benchmark for Evaluating Cryptography Capabilities of Large Language Models

...

372

2

0

13 Jul 2025

Evaluating LLMs on Sequential API Call Through Automated Test Generation

Evaluating LLMs on Sequential API Call Through Automated Test Generation

94

2

0

13 Jul 2025

RedOne: Revealing Domain-specific LLM Post-Training in Social Networking Services

RedOne: Revealing Domain-specific LLM Post-Training in Social Networking Services

...

219

0

0

13 Jul 2025

SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation

SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation

Gopi Krishnan Rajbahadur

Ahmed E. Hassan

433

4

0

12 Jul 2025

Can Large Language Models Understand As Well As Apply Patent Regulations to Pass a Hands-On Patent Attorney Test?

Can Large Language Models Understand As Well As Apply Patent Regulations to Pass a Hands-On Patent Attorney Test?

Pascal A Scherz

219

1

0

11 Jul 2025

KAT-V1: Kwai-AutoThink Technical Report

KAT-V1: Kwai-AutoThink Technical Report

...

340

7

0

11 Jul 2025

FlexOlmo: Open Language Models for Flexible Data Use

FlexOlmo: Open Language Models for Flexible Data Use

Niklas Muennighoff

...

Luke Zettlemoyer

Hannaneh Hajishirzi

397

4

0

09 Jul 2025

ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

...

156

8

0

07 Jul 2025

Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems

Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems

181

2

0

07 Jul 2025

Controlling Thinking Speed in Reasoning Models

Controlling Thinking Speed in Reasoning Models

141

7

0

04 Jul 2025

LogicGuard: Improving Embodied LLM agents through Temporal Logic based Critics

LogicGuard: Improving Embodied LLM agents through Temporal Logic based Critics

Vaibhav Srivastava

Francesco Bullo

188

0

0

04 Jul 2025

Importance-Aware Activation Space Reconstruction

Importance-Aware Activation Space Reconstruction

Md Mokarram Chowdhury

Daniel Agyei Asante

168

0

0

04 Jul 2025

MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks

MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks

Dumitran Adrian Marius

Theodor-Pierre Moroianu

Buca Mihnea-Vicentiu

92

0

0

03 Jul 2025

OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding

OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding

R. Ramakrishnan

342

1

0

03 Jul 2025

CoRe: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks

CoRe: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks

201

9

0

03 Jul 2025

Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions

Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions

Eitan Anzenberg

Arunava Samajpati

Sivasankaran Chandrasekar

117

2

0

02 Jul 2025

1 2 3...16 17 18...89 90 91