Agentless: Demystifying LLM-based Software Engineering Agents

1 July 2024

Chunqiu Steven Xia

Papers citing "Agentless: Demystifying LLM-based Software Engineering Agents"

50 / 55 papers shown

Title
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch Zimu Lu Y. Yang Houxing Ren Haotian Hou Han Xiao Ke Wang Weikang Shi Aojun Zhou Mingjie Zhan H. Li LLMAG 38 0 0 06 May 2025
CrashFixer: A crash resolution agent for the Linux kernel Alex Mathai Chenxi Huang Suwei Ma Jihwan Kim Hailie Mitchell Aleksandr Nogikh Petros Maniatis Franjo Ivančić Junfeng Yang Baishakhi Ray 50 0 0 29 Apr 2025
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning Minju Seo Jinheon Baek Seongyun Lee S. Hwang AI4CE 35 0 0 24 Apr 2025
SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs Minh V.T. Pham Huy N. Phan Hoang N. Phan Cuong Le Chi T. Nguyen Nghi D. Q. Bui SyDa 24 0 0 20 Apr 2025
Frontier AI's Impact on the Cybersecurity Landscape Wenbo Guo Yujin Potter Tianneng Shi Zhun Wang Andy Zhang Dawn Song 31 1 0 07 Apr 2025
SEAL: Steerable Reasoning Calibration of Large Language Models for Free Runjin Chen Zhenyu (Allen) Zhang Junyuan Hong Souvik Kundu Zhangyang Wang OffRL LRM 44 2 0 07 Apr 2025
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving Daoguang Zan Zhirong Huang Wei Liu Hanwu Chen L. Zhang ... Jing Su Tianyu Liu Rui Long Kai Shen Liang Xiang 36 1 0 03 Apr 2025
Z1: Efficient Test-time Scaling with Code Zhaojian Yu Yinghao Wu Yilun Zhao Arman Cohan Xiao-Ping Zhang LRM 28 1 0 01 Apr 2025
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute Yingwei Ma Binhua Li Yihong Dong Xue Jiang Rongyu Cao J. Chen Fei Huang Y. Li LLMAG LRM 55 0 0 31 Mar 2025
CoSIL: Software Issue Localization via LLM-Driven Code Repository Graph Searching Zhonghao Jiang Xiaoxue Ren Meng Yan Wei Jiang Y. Li Z. Liu 36 0 0 28 Mar 2025
debug-gym: A Text-Based Environment for Interactive Debugging Xingdi Yuan Morgane M Moss Charbel El Feghali Chinmay Singh Darya Moldavskaya ... Lucas Page-Caccia Matheus Pereira Minseon Kim Alessandro Sordoni Marc-Alexandre Côté LLMAG 65 1 0 27 Mar 2025
Reasoning Beyond Limits: Advances and Open Problems for LLMs M. Ferrag Norbert Tihanyi Merouane Debbah ELM OffRL LRM AI4CE 56 2 0 26 Mar 2025
Survey on Evaluation of LLM-based Agents Asaf Yehudai Lilach Eden Alan Li Guy Uziel Yilun Zhao Roy Bar-Haim Arman Cohan Michal Shmueli-Scheuer LLMAG ELM Presented at ResearchTrend Connect \| LLMAG on 07 May 2025 93 5 0 20 Mar 2025
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution Zhi Chen Wei Ma Lingxiao Jiang LLMAG 42 0 0 16 Mar 2025
LLM Agents for Education: Advances and Applications Zhendong Chu Shen Wang Jian Xie Tinghui Zhu Yibo Yan ... Aoxiao Zhong Xuming Hu Jing Liang Philip S. Yu Qingsong Wen LLMAG ELM 103 1 0 14 Mar 2025
Automated Benchmark Generation for Repository-Level Coding Tasks Konstantinos Vergopoulos Mark Niklas Muller Martin Vechev 36 0 0 10 Mar 2025
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs Dayu Yang Tianyang Liu Daoan Zhang Antoine Simoulin Xiaoyi Liu ... Zhaopu Teng Xin Qian Grey Yang Jiebo Luo Julian McAuley ReLM OffRL LRM 81 3 0 26 Feb 2025
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use Zaid Khan Ali Farhadi Ranjay Krishna Luca Weihs Mohit Bansal Tanmay Gupta 39 0 0 21 Feb 2025
MLGym: A New Framework and Benchmark for Advancing AI Research Agents Deepak Nathani Lovish Madaan Nicholas Roberts Nikolay Bashlykov Ajay Menon ... Tatiana Shavrina Jakob Foerster Yoram Bachrach William Yang Wang Roberta Raileanu LLMAG 72 7 0 21 Feb 2025
From PowerPoint UI Sketches to Web-Based Applications: Pattern-Driven Code Generation for GIS Dashboard Development Using Knowledge-Augmented LLMs, Context-Aware Visual Prompting, and the React Framework Haowen Xu Xiao-Ying Yu 68 0 0 12 Feb 2025
Cardiverse: Harnessing LLMs for Novel Card Game Prototyping Danrui Li Sen Zhang Sam S. Sohn Kaidong Hu Muhammad Usman Mubbasir Kapadia 30 0 0 10 Feb 2025
Otter: Generating Tests from Issues to Validate SWE Patches Toufique Ahmed Jatin Ganhotra Rangeet Pan Avraham Shinnar Saurabh Sinha Martin Hirzel 67 0 0 07 Feb 2025
ReFoRCE: A Text-to-SQL Agent with Self-Refinement, Format Restriction, and Column Exploration Minghang Deng Ashwin Ramachandran Canwen Xu Lanxiang Hu Zhewei Yao Anupam Datta Hao Zhang LMTD 110 1 0 02 Feb 2025
Deep Learning-Based Identification of Inconsistent Method Names: How Far Are We? Taiming Wang Yuxia Zhang Lin Jiang Yi Tang Guangjie Li Hui Liu 70 1 0 22 Jan 2025
Evaluating Agent-based Program Repair at Google Pat Rondon Renyao Wei J. Cambronero Jürgen Cito Aaron Sun S. Sanyam Michele Tufano S. Chandra 29 3 0 13 Jan 2025
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement Tianyu Zheng Ge Zhang Tianhao Shen Xueling Liu Bill Yuchen Lin Jie Fu Wenhu Chen Xiang Yue SyDa 67 102 0 08 Jan 2025
Efficiently Serving LLM Reasoning Programs with Certaindex Yichao Fu Junda Chen Siqi Zhu Zheyu Fu Zhongdongming Dai Aurick Qiao Hao Zhang LRM 44 12 0 31 Dec 2024
Integrating Various Software Artifacts for Better LLM-based Bug Localization and Program Repair Qiong Feng Xiaotian Ma Jiayi Sheng Ziyuan Feng Wei Song Peng Liang 79 0 0 05 Dec 2024
CoRNStack: High-Quality Contrastive Data for Better Code Retrieval and Reranking Tarun Suresh R. Reddy Yifei Xu Zach Nussbaum Andriy Mulyar Brandon Duderstadt Heng Ji 80 3 0 01 Dec 2024
Are Large Language Models Memorizing Bug Benchmarks? Daniel Ramos Claudia Mamede Kush Jain Paulo Canelas Catarina Gamboa Claire Le Goues PILM ELM 84 6 0 20 Nov 2024
Human-In-the-Loop Software Development Agents Wannita Takerngsaksiri Jirat Pasuksmit Patanamon Thongtanunam C. Tantithamthavorn Ruixiong Zhang Fan Jiang Jing Li Evan Cook K. Chen Ming Wu LLMAG 84 1 0 19 Nov 2024
Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows Fangyu Lei Jixuan Chen Yuxiao Ye Ruisheng Cao Dongchan Shin ... Caiming Xiong Ruoxi Sun Qian Liu Sida I. Wang Tao Yu LMTD 69 20 0 12 Nov 2024
Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks Adam Fourney Gagan Bansal Hussein Mozannar Cheng Tan Eduardo Salinas ... Victor C. Dibia Ahmed Hassan Awadallah Ece Kamar Rafah Hosn Saleema Amershi AI4CE LRM LLMAG 27 34 0 07 Nov 2024
Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement Yingwei Ma Rongyu Cao Yongchang Cao Y. Zhang J. Chen Yibo Liu Yuchen Liu Binhua Li Fei Huang Yongbin Li 36 5 0 01 Nov 2024
Watermarking Large Language Models and the Generated Content: Opportunities and Challenges Ruisi Zhang F. Koushanfar WaLM 33 0 0 24 Oct 2024
Agent-as-a-Judge: Evaluate Agents with Agents Mingchen Zhuge Changsheng Zhao Dylan R. Ashley Wenyi Wang Dmitrii Khizbullin ... Raghuraman Krishnamoorthi Yuandong Tian Yangyang Shi Vikas Chandra Jürgen Schmidhuber ELM 57 32 0 14 Oct 2024
DAWN: Designing Distributed Agents in a Worldwide Network Zahra Aminiranjbar Jianan Tang Qiudan Wang Shubha Pant Mahesh Viswanathan LLMAG AI4CE 17 1 0 11 Oct 2024
Towards AI-Native Software Engineering (SE 3.0): A Vision and a Challenge Roadmap Ahmed E. Hassan G. Oliva Dayi Lin Boyuan Chen Zhen Ming Jiang 28 4 0 08 Oct 2024
Steering Large Language Models between Code Execution and Textual Reasoning Yongchao Chen Harsh Jhamtani Srinagesh Sharma Chuchu Fan Chi Wang LLMAG LRM 19 6 0 04 Oct 2024
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph Siru Ouyang W. Yu Kaixin Ma Zilin Xiao Z. Zhang Mengzhao Jia J. Han H. Zhang Dong Yu 45 12 0 03 Oct 2024
RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning Jonas Gehring Kunhao Zheng Jade Copet Vegard Mella Taco Cohen Gabriel Synnaeve LLMAG 19 20 0 02 Oct 2024
RepairBench: Leaderboard of Frontier Models for Program Repair André Silva Martin Monperrus KELM 12 4 0 27 Sep 2024
VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation Zhijie Wang Zhehua Zhou Jiayang Song Yuheng Huang Zhan Shu Lei Ma LM&Ro 60 5 0 19 Sep 2024
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale Huy N. Phan Phong X. Nguyen Nghi D. Q. Bui LLMAG 18 10 0 09 Sep 2024
Large Language Model-Based Agents for Software Engineering: A Survey Junwei Liu Kaixin Wang Yixuan Chen Xin Peng Zhenpeng Chen Lingming Zhang Yiling Lou AI4CE LLMAG LM&Ro 34 36 0 04 Sep 2024
MarsCode Agent: AI-native Automated Bug Fixing Y. Liu Pengfei Gao Xinchen Wang Jie Liu Yexuan Shi Zhao Zhang Chao Peng LLMAG 23 2 0 02 Sep 2024
Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents Kexun Zhang Weiran Yao Zuxin Liu Yihao Feng Zhiwei Liu ... Yingbo Zhou Shelby Heinecke Silvio Savarese Huan Wang Caiming Xiong LLMAG 30 16 0 13 Aug 2024
CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases Xiangyan Liu Bo Lan Zhiyuan Hu Yang Liu Zhicheng Zhang Fei-Yue Wang Michael Shieh Wenmeng Zhou 31 11 0 07 Aug 2024
SpecRover: Code Intent Extraction via LLMs Haifeng Ruan Yuntong Zhang Abhik Roychoudhury 19 17 0 05 Aug 2024
CodeR: Issue Resolving with Multi-Agent and Task Graphs Dong Chen Shaoxin Lin Muhan Zeng Daoguang Zan Jian-Gang Wang ... Guangtai Liang Yuchi Ma Pan Bian Tao Xie Qianxiang Wang 46 30 0 03 Jun 2024