Title
An LLM-enabled Multi-Agent Autonomous Mechatronics Design Framework Zeyu Wang Frank P.-W. Lo Qian Chen Yongqi Zhang Chen Lin Xu Chen Zhenhua Yu Alexander J. Thompson Eric M. Yeatman Benny P. L. Lo AI4CE 26 0 0 20 Apr 2025
The Digital Cybersecurity Expert: How Far Have We Come? Dawei Wang Geng Zhou Xianglong Li Yu Bai Li Chen Ting Qin Jian Sun D. Li ELM 57 0 0 16 Apr 2025
debug-gym: A Text-Based Environment for Interactive Debugging Xingdi Yuan Morgane M Moss Charbel El Feghali Chinmay Singh Darya Moldavskaya ... Lucas Page-Caccia Matheus Pereira Minseon Kim Alessandro Sordoni Marc-Alexandre Côté LLMAG 68 1 0 27 Mar 2025
Learning to Generate Unit Tests for Automated Debugging Archiki Prasad Elias Stengel-Eskin Justin Chih-Yao Chen Zaid Khan Mohit Bansal ELM 76 1 0 03 Feb 2025
SecCodePLT: A Unified Platform for Evaluating the Security of Code GenAI Yu Yang Yuzhou Nie Zhun Wang Yuheng Tang Wenbo Guo Bo Li D. Song ELM 38 6 0 14 Oct 2024
Agent-as-a-Judge: Evaluate Agents with Agents Mingchen Zhuge Changsheng Zhao Dylan R. Ashley Wenyi Wang Dmitrii Khizbullin ... Raghuraman Krishnamoorthi Yuandong Tian Yangyang Shi Vikas Chandra Jürgen Schmidhuber ELM 57 32 0 14 Oct 2024
The why, what, and how of AI-based coding in scientific research Tonghe Zhuang Zhicheng Lin 21 0 0 03 Oct 2024
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging Yuling Shi Songsong Wang Chengcheng Wan Xiaodong Gu ELM 19 6 0 02 Oct 2024
Multi-Programming Language Ensemble for Code Generation in Large Language Model Tengfei Xue Xuefeng Li Tahir Azim Roman Smirnov Jianhui Yu Arash Sadrieh Babak Pahlavan 21 2 0 06 Sep 2024
COAST: Enhancing the Code Debugging Ability of LLMs through Communicative Agent Based Data Synthesis Weiqing Yang Hanbin Wang Zhenghao Liu Xinze Li Yukun Yan Shuo Wang Yu Gu Minghe Yu Zhiyuan Liu Ge Yu 47 2 0 09 Aug 2024
Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models Jia Zheng Boxi Cao Zhengzhao Ma Ruotong Pan Hongyu Lin Yaojie Lu Xianpei Han Le Sun ALM 23 2 0 16 Jul 2024
Benchmarking Generative Models on Computational Thinking Tests in Elementary Visual Programming Victor-Alexandru Pădurean Adish Singla ELM 44 3 0 14 Jun 2024
VersiCode: Towards Version-controllable Code Generation Tongtong Wu Weigang Wu Xingyu Wang Kang Xu Suyu Ma Bo Jiang Ping Yang Zhenchang Xing Yuan-Fang Li Gholamreza Haffari 34 4 0 11 Jun 2024
R2C2-Coder: Enhancing and Benchmarking Real-world Repository-level Code Completion Abilities of Code Large Language Models Ken Deng Jiaheng Liu He Zhu Congnan Liu Jingxin Li ... Yuanxing Zhang Wenbo Su Bangyu Xiang Tiezheng Ge Bo Zheng 40 2 0 03 Jun 2024
When LLMs Meet Cybersecurity: A Systematic Literature Review Jie Zhang Haoyu Bu Hui Wen Yu Chen Lun Li Hongsong Zhu 24 36 0 06 May 2024
LLeMpower: Understanding Disparities in the Control and Access of Large Language Models Vishwas Sathish Hannah Lin Aditya K Kamath Anish Nyayachavadi 24 4 0 14 Apr 2024