v1v2 (latest)

LLMs Cannot Reliably Identify and Reason About Security Vulnerabilities (Yet?): A Comprehensive Evaluation, Framework, and Benchmarks

19 December 2023

Papers citing "LLMs Cannot Reliably Identify and Reason About Security Vulnerabilities (Yet?): A Comprehensive Evaluation, Framework, and Benchmarks"

50 / 59 papers shown

DUALGUAGE: Automated Joint Security-Functionality Benchmarking for Secure Code Generation

122

24 Nov 2025

LLMs as Firmware Experts: A Runtime-Grown Tree-of-Agents Framework

108

23 Nov 2025

VULPO: Context-Aware Vulnerability Detection via On-Policy LLM Optimization

222

14 Nov 2025

One Bug, Hundreds Behind: LLMs for Large-Scale Bug Discovery

125

15 Oct 2025

MAVUL: Multi-Agent Vulnerability Detection via Contextual Reasoning and Interactive Refinement

129

30 Sep 2025

LLM-based Vulnerability Discovery through the Lens of Code Metrics

114

23 Sep 2025

Adversarially Robust Assembly Language Model for Packed Executables Detection

108

19 Sep 2025

From CVE Entries to Verifiable Exploits: An Automated Multi-Agent Framework for Reproducing CVEs

Saad Ullah

Praneeth Balasubramanian

252

01 Sep 2025

LLM-driven Provenance Forensics for Threat Investigation and Detection

Kunal Mukherjee

Murat Kantarcioglu

113

29 Aug 2025

LLMs in the SOC: An Empirical Study of Human-AI Collaboration in Security Operations Centres

Ronal Singh

Shahroz Tariq

Fatemeh Jalalvand

Mohan Baruwal Chhetri

Surya Nepal

Cécile Paris

Martin Lochner

216

26 Aug 2025

A Guide to Stakeholder Analysis for Cybersecurity Researchers

20 Aug 2025

Think Broad, Act Narrow: CWE Identification with Multi-Agent Large Language Models

Mohammed Sayagh

Mohammad Ghafari

AAML

122

02 Aug 2025

Revisiting Pre-trained Language Models for Vulnerability Detection

261

22 Jul 2025

When Developer Aid Becomes Security Debt: A Systematic Analysis of Insecure Behaviors in LLM Coding Agents

Matous Kozak

Roshanak Zilouchian Moghaddam

Siva Sivaraman

LLMAG ELM

211

12 Jul 2025

SAVANT: Vulnerability Detection in Application Dependencies through Semantic-Guided Reachability Analysis

178

21 Jun 2025

Growing with Experience: Growing Neural Networks in Deep Reinforcement Learning

154

13 Jun 2025

LLM Embedding-based Attribution (LEA): Quantifying Source Contributions to Generative Model's Response for Vulnerability Analysis

Reza Fayyazi

Michael Zuzak

S. Yang

232

12 Jun 2025

SCGAgent: Recreating the Benefits of Reasoning Models for Secure Code Generation with Agentic Workflows

228

08 Jun 2025

VulBinLLM: LLM-powered Vulnerability Detection for Stripped Binaries

266

28 May 2025

SV-TrustEval-C: Evaluating Structure and Semantic Reasoning in Large Language Models for Source Code Vulnerability AnalysisIEEE Symposium on Security and Privacy (S&P), 2025

Hari Manassery Koduvely

Guy-Vincent Jourdan

Stephan Jou

ELM LRM

172

27 May 2025

Advancing Software Quality: A Standards-Focused Review of LLM-Based Assurance Techniques

Avinash Patil

357

19 May 2025

Automated Profile Inference with Language Model Agents

306

18 May 2025

Let the Trial Begin: A Mock-Court Approach to Vulnerability Detection using LLM-Based Agents

363

16 May 2025

SecReEvalBench: A Multi-turned Security Resilience Evaluation Benchmark for Large Language Models

Huining Cui

Wei Liu

AAML ELM

409

12 May 2025

AutoPatch: Multi-Agent Framework for Patching Real-World CVE Vulnerabilities

234

07 May 2025

Automatically Generating Rules of Malicious Software Packages via Large Language ModelDependable Systems and Networks (DSN), 2025

228

24 Apr 2025

Automated Static Vulnerability Detection via a Holistic Neuro-symbolic Approach

988

22 Apr 2025

Trace Gadgets: Minimizing Code Context for Machine Learning-Based Vulnerability Prediction

273

18 Apr 2025

The Digital Cybersecurity Expert: How Far Have We Come?IEEE Symposium on Security and Privacy (S&P), 2025

303

16 Apr 2025

Can LLMs Classify CVEs? Investigating LLMs Capabilities in Computing CVSS Vectors

Francesco Marchiori

Denis Donadel

Mauro Conti

303

14 Apr 2025

R2Vul: Learning to Reason about Software Vulnerabilities with Reinforcement Learning and Structured Reasoning Distillation

...

507

07 Apr 2025

Frontier AI's Impact on the Cybersecurity Landscape

527

07 Apr 2025

Block Toeplitz Sparse Precision Matrix Estimation for Large-Scale Interval-Valued Time Series Forecasting

Wan Tian

Zhongfeng Qin

AI4TS

213

04 Apr 2025

Reasoning with LLMs for Zero-Shot Vulnerability Detection

Arastoo Zibaeirad

Marco Vieira

AAML LRM

210

22 Mar 2025

Large Language Models (LLMs) for Source Code Analysis: applications, models and datasets

Hamed Jelodar

Mohammad Meymani

Roozbeh Razavi-Far

269

21 Mar 2025

XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants

556

18 Mar 2025

Vulnerability Detection: From Formal Verification to Large Language Models and Hybrid Approaches: A Comprehensive Overview

277

13 Mar 2025

Cyber Defense Reinvented: Large Language Models as Threat Intelligence Copilots

Jinyuan Jia

Zhaohan Xi

322

28 Feb 2025

Standard Benchmarks Fail - Auditing LLM Agents in Finance Must Prioritize Risk

457

21 Feb 2025

Do LLMs Consider Security? An Empirical Study on Responses to Programming QuestionsEmpirical Software Engineering (EMSE), 2025

338

20 Feb 2025

LAMD: Context-driven Android Malware Detection and Classification with LLMs

489

18 Feb 2025

Large Language Models for In-File Vulnerability Localization Can Be "Lost in the End"

Francesco Sovrano

Adam Bauer

Alberto Bacchelli

297

09 Feb 2025

Can LLM Generate Regression Tests for Software Commits?

171

19 Jan 2025

Logic Meets Magic: LLMs Cracking Smart Contract VulnerabilitiesInternational Conference on Blockchain (ICB), 2025

232

13 Jan 2025

ProveRAG: Provenance-Driven Vulnerability Analysis with Automated Retrieval-Augmented LLMs

263

22 Oct 2024

From Solitary Directives to Interactive Encouragement! LLM Secure Code Generation by Natural Language Prompting

266

18 Oct 2024

SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI

267

14 Oct 2024

Code Vulnerability Repair with Large Language Model using Context-Aware Prompt Tuning

280

27 Sep 2024

VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching

Arastoo Zibaeirad

Marco Vieira

198

16 Sep 2024

Enhancing Source Code Security with LLMs: Demystifying The Challenges and Generating Reliable Repairs

Peyman Najafirad

311

01 Sep 2024