v1v2 (latest)

Evaluating Large Language Models Trained on Code

7 July 2021

ArXiv (abs)PDF HTML HuggingFace (8 upvotes)

Papers citing "Evaluating Large Language Models Trained on Code"

50 / 4,509 papers shown

DINGO: Constrained Inference for Diffusion LLMs

198

29 May 2025

Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

330

29 May 2025

Self-Correcting Code Generation Using Small Language Models

274

29 May 2025

VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL

Bhaskar Ramasubramanian

158

29 May 2025

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

...

193

29 May 2025

Critical Batch Size Revisited: A Simple Empirical Approach to Large-Batch Language Model Training

462

29 May 2025

PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics

261

29 May 2025

From Knowledge to Noise: CTIM-Rover and the Pitfalls of Episodic Memory in Software Engineering Agents

Tobias Lindenbauer

Georg Groh

Hinrich Schütze

211

29 May 2025

GenCAD-Self-Repairing: Feasibility Enhancement for 3D CAD Generation

Chikaha Tsuji

Enrique Flores Medina

Harshit Gupta

Md Ferdous Alam

163

29 May 2025

Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

...

283

29 May 2025

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

...

349

29 May 2025

Reverse Preference Optimization for Complex Instruction FollowingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

207

28 May 2025

Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling

Fanzeng Xia

Yidong Luo

Tinko Sebastian Bartels

Yaqi Xu

Tongxin Li

ReLM LRM

266

28 May 2025

HiLDe: Intentional Code Generation via Human-in-the-Loop Decoding

Emmanuel Anaya Gonzalez

Raven Rothkopf

Sorin Lerner

Nadia Polikarpova

297

28 May 2025

First Steps Towards Overhearing LLM Agents: A Case Study With Dungeons & Dragons Gameplay

266

28 May 2025

Advancing Expert Specialization for Better MoE

...

390

28 May 2025

Text2Grad: Reinforcement Learning from Natural Language Feedback

235

28 May 2025

Large Language Models for Depression Recognition in Spoken Language Integrating Psychological Knowledge

207

28 May 2025

Scaling Reasoning without Attention

178

28 May 2025

ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning

247

28 May 2025

EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache ReuseEuropean Conference on Parallel Processing (Euro-Par), 2025

230

28 May 2025

GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and ReasoningAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

206

28 May 2025

LASER: Stratified Selective Sampling for Instruction Tuning with Dedicated Scoring Strategy

Paramita Mirza

Lucas Weber

Fabian Küch

287

28 May 2025

SimuGen: Multi-modal Agentic Framework for Constructing Block Diagram-Based Simulation Models

216

28 May 2025

Unveiling Instruction-Specific Neurons & Experts: An Analytical Framework for LLM's Instruction-Following Capabilities

...

228

27 May 2025

Explaining Large Language Models with gSMILE

Zeinab Dehghani

Mohammed Naveed Akram

Adil Khan

Mohammed Naveed Akram

Y. Papadopoulos

MILM LRM

570

27 May 2025

Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities

476

27 May 2025

Can LLMs Learn to Map the World from Local Descriptions?

232

27 May 2025

Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits

Yeshwanth Venkatesha

Souvik Kundu

Priyadarshini Panda

166

27 May 2025

Test-Time Learning for Large Language Models

440

27 May 2025

LayerIF: Estimating Layer Quality for Large Language Models using Influence Functions

426

27 May 2025

Deconstructing Obfuscation: A four-dimensional framework for evaluating Large Language Models assembly code deobfuscation capabilities

Anton Tkachenko

Dmitrij Suskevic

Benjamin Adolphi

305

26 May 2025

Two Causally Related Needles in a Video Haystack

311

26 May 2025

Token-Importance Guided Direct Preference Optimization

273

26 May 2025

The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants

...

412

26 May 2025

Search-Based Software Engineering and AI Foundation Models: Current Landscape and Future Roadmap

232

26 May 2025

PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives

306

26 May 2025

Lifelong Safety Alignment for Language Models

296

26 May 2025

CODE-DITING: A Reasoning-Based Metric for Functional Alignment in Code Evaluation

239

26 May 2025

Amulet: Putting Complex Multi-Turn Conversations on the Stand with LLM Juries

171

26 May 2025

Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

375

26 May 2025

FunReason: Enhancing Large Language Models' Function Calling via Self-Refinement Multiscale Loss and Automated Data Refinement

...

284

26 May 2025

Temporal Sampling for Forgotten Reasoning in LLMs

Yuetai Li

Zhangchen Xu

Fengqing Jiang

Bhaskar Ramasubramanian

307

26 May 2025

CAD-Coder: Text-to-CAD Generation with Chain-of-Thought and Geometric Reward

220

26 May 2025

Conversational Lexicography: Querying Lexicographic Data on Knowledge Graphs with SPARQL through Natural Language

Kilian Sennrich

Sina Ahmadi

129

26 May 2025

ReChisel: Effective Automatic Chisel Code Generation by LLM with ReflectionDesign Automation Conference (DAC), 2025

223

26 May 2025

Large Language Models for Planning: A Comprehensive and Systematic Survey

LLMAG LM&Ro OffRL ELM LRM

458

26 May 2025

Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks

Shivkumar Kalyanaraman

Vipin Chaudhary

315

26 May 2025

Large Language Models' Reasoning Stalls: An Investigation into the Capabilities of Frontier Models

Lachlan McGinness

Peter Baumgartner

ReLM LRM ELM

508

26 May 2025

AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy

Sebastian Antony Joseph

474

26 May 2025