Teaching Large Language Models to Self-Debug

11 April 2023

Papers citing "Teaching Large Language Models to Self-Debug"

50 / 97 papers shown

Title
CodePDE: An Inference Framework for LLM-driven PDE Solver Generation Shanda Li Tanya Marwah Junhong Shen W. Sun Andrej Risteski Yiming Yang Ameet Talwalkar AI4CE 17 0 0 13 May 2025
Enhancing Code Generation via Bidirectional Comment-Level Mutual Grounding Yifeng Di Tianyi Zhang 11 0 0 12 May 2025
Towards Effectively Leveraging Execution Traces for Program Repair with Code LLMs Mirazul Haque Petr Babkin Farima Farmahinifarahani Manuela Veloso 17 0 0 07 May 2025
Scratch Copilot: Supporting Youth Creative Coding with AI Stefania Druga Amy J. Ko 10 0 0 06 May 2025
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey Da Zheng Lun Du Junwei Su Yuchen Tian Yuqi Zhu Jintian Zhang Lanning Wei Ningyu Zhang H. Chen LRM 49 0 0 06 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 60 0 0 05 May 2025
QiMeng-Xpiler: Transcompiling Tensor Programs for Deep Learning Systems with a Neural-Symbolic Approach Shouyang Dong Yuanbo Wen Jun Bi Di Huang Jiaming Guo ... Yifan Hao Xuehai Zhou Tianshi Chen Qi Guo Yunji Chen 20 0 0 04 May 2025
CrashFixer: A crash resolution agent for the Linux kernel Alex Mathai Chenxi Huang Suwei Ma Jihwan Kim Hailie Mitchell Aleksandr Nogikh Petros Maniatis Franjo Ivančić Junfeng Yang Baishakhi Ray 55 0 0 29 Apr 2025
Towards Adaptive Software Agents for Debugging Yacine Majdoub Eya Ben Charrada Haifa Touati LLMAG 74 0 0 25 Apr 2025
Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL Simone Papicchio Simone Rossi Luca Cagliero Paolo Papotti ReLM LMTD AI4TS LRM 53 0 0 21 Apr 2025
DocAgent: A Multi-Agent System for Automated Code Documentation Generation Dayu Yang Antoine Simoulin Xin Qian Xiaoyi Liu Yuwei Cao Zhaopu Teng Grey Yang LLMAG 54 0 0 11 Apr 2025
On Benchmarking Code LLMs for Android Malware Analysis Yiling He Hongyu She Xingzhi Qian Xinran Zheng Zhuo Chen Z. Qin Lorenzo Cavallaro ELM 43 1 0 01 Apr 2025
LLMPerf: GPU Performance Modeling meets Large Language Models Khoi N.M. Nguyen Hoang Duy Nguyen Do Huyen Thao Le T. Dao 43 0 0 14 Mar 2025
Fine-Tuning Diffusion Generative Models via Rich Preference Optimization Hanyang Zhao Haoxian Chen Yucheng Guo Genta Indra Winata Tingting Ou Ziyu Huang D. Yao Wenpin Tang 54 0 0 13 Mar 2025
LLMs Can Generate a Better Answer by Aggregating Their Own Responses Zichong Li Xinyu Feng Yuheng Cai Zixuan Zhang Tianyi Liu Chen Liang Weizhu Chen Haoyu Wang T. Zhao LRM 50 1 0 06 Mar 2025
Generator-Assistant Stepwise Rollback Framework for Large Language Model Agent Xingzuo Li Kehai Chen Yunfei Long X. Bai Yong-mei Xu Min Zhang LRM LLMAG 79 1 0 04 Mar 2025
The Power of Personality: A Human Simulation Perspective to Investigate Large Language Model Agents Yifan Duan Yihong Tang Xuefeng Bai Kehai Chen J. Li Min Zhang LLMAG 84 0 0 28 Feb 2025
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models Hongzhan Lin Yang Deng Yuxuan Gu Wenxuan Zhang Jing Ma See-Kiong Ng Tat-Seng Chua LLMAG KELM HILM 61 0 0 25 Feb 2025
Selective Prompt Anchoring for Code Generation Yuan Tian Tianyi Zhang 77 3 0 24 Feb 2025
SQL-o1: A Self-Reward Heuristic Dynamic Search Method for Text-to-SQL Shuai Lyu Haoran Luo Zhonghong Ou Yifan Zhu Xiaoran Shang Yang Qin Meina Song AI4TS LRM 60 1 0 17 Feb 2025
Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data Scarcity Dylan Zhang Justin Wang Tianran Sun 36 0 0 17 Feb 2025
Flaming-hot Initiation with Regular Execution Sampling for Large Language Models Weizhe Chen Zhicheng Zhang Guanlin Liu Renjie Zheng Wenlei Shi Chen Dun Zheng Wu Xing Jin Lin Yan ALM LRM 51 1 0 17 Feb 2025
RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents Weizhe Chen Sven Koenig B. Dilkina LLMAG 97 8 0 17 Feb 2025
LeDex: Training LLMs to Better Self-Debug and Explain Code Nan Jiang Xiaopeng Li Shiqi Wang Qiang Zhou Soneya Binta Hossain Baishakhi Ray Varun Kumar Xiaofei Ma Anoop Deoras LRM 78 10 0 17 Feb 2025
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging Md. Ashraful Islam Mohammed Eunus Ali Md. Rizwan Parvez LLMAG 64 2 0 08 Feb 2025
Iterative Deepening Sampling for Large Language Models Weizhe Chen Sven Koenig B. Dilkina LRM ReLM 88 0 0 08 Feb 2025
Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment Cheryl Li Tianyuan Xu Yiwen Guo LRM 69 2 0 05 Feb 2025
Learning to Generate Unit Tests for Automated Debugging Archiki Prasad Elias Stengel-Eskin Justin Chih-Yao Chen Zaid Khan Mohit Bansal ELM 76 1 0 03 Feb 2025
Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges Nayoung Lee Ziyang Cai Avi Schwarzschild Kangwook Lee Dimitris Papailiopoulos ReLM VLM LRM AI4CE 64 4 0 03 Feb 2025
ReFoRCE: A Text-to-SQL Agent with Self-Refinement, Format Restriction, and Column Exploration Minghang Deng Ashwin Ramachandran Canwen Xu Lanxiang Hu Zhewei Yao Anupam Datta Hao Zhang LMTD 114 1 0 02 Feb 2025
QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks Yaojie Hu Qiang Zhou Qihong Chen Xiaopeng Li Linbo Liu Dejiao Zhang Amit Kachroo Talha Oz Omer Tripp 47 3 0 20 Jan 2025
Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models Junyu Chen Han Cai Junsong Chen E. Xie Shang Yang Haotian Tang Muyang Li Y. Lu Song Han DiffM 59 7 0 20 Jan 2025
Planning-Driven Programming: A Large Language Model Programming Workflow Chao Lei Yanchuan Chang N. Lipovetzky Krista A. Ehinger 81 1 0 10 Jan 2025
VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning Xueqing Wu Yuheng Ding Bingxuan Li Pan Lu Da Yin Kai-Wei Chang Nanyun Peng LRM 97 3 0 03 Dec 2024
Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows Fangyu Lei Jixuan Chen Yuxiao Ye Ruisheng Cao Dongchan Shin ... Caiming Xiong Ruoxi Sun Qian Liu Sida I. Wang Tao Yu LMTD 74 20 0 12 Nov 2024
Grounding Natural Language to SQL Translation with Data-Based Self-Explanations Yuankai Fan Tonghui Ren Can Huang Zhenying He Xinyu Wang LRM 39 0 0 05 Nov 2024
Automated Proof Generation for Rust Code via Self-Evolution Tianyu Chen Shuai Lu Shan Lu Y. Gong Chenyuan Yang ... Peng Cheng Fan Yang Shuvendu Lahiri Tao Xie Lidong Zhou 37 6 0 21 Oct 2024
MCCoder: Streamlining Motion Control with LLM-Assisted Code Generation and Rigorous Verification Yin Li Liangwei Wang Shiyuan Piao Boo-Ho Yang Ziyue Li Wei Zeng Fugee Tsung 21 0 0 19 Oct 2024
LLMOPT: Learning to Define and Solve General Optimization Problems from Scratch Caigao Jiang Xiang Shu Hong Qian Xingyu Lu Jun-ping Zhou Aimin Zhou Yang Yu 34 1 0 17 Oct 2024
MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback Zonghai Yao Aditya Parashar Huixue Zhou Won Seok Jang Feiyun Ouyang Zhichao Yang Hong-ye Yu ELM 37 2 0 17 Oct 2024
MSc-SQL: Multi-Sample Critiquing Small Language Models For Text-To-SQL Translation S. Gorti Ilan Gofman Zhaoyan Liu Jiapeng Wu Noël Vouitsis Guangwei Yu Jesse C. Cresswell Rasa Hosseinzadeh SyDa 41 6 0 16 Oct 2024
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization Guanlin Liu Kaixuan Ji Ning Dai Zheng Wu Chen Dun Q. Gu Lin Yan Quanquan Gu Lin Yan OffRL LRM 46 8 0 11 Oct 2024
Divide and Translate: Compositional First-Order Logic Translation and Verification for Complex Logical Reasoning Hyun Ryu Gyeongman Kim Hyemin S. Lee Eunho Yang LRM 31 3 0 10 Oct 2024
Generating CAD Code with Vision-Language Models for 3D Designs Kamel Alrashedy Pradyumna Tambwekar Z. Zaidi Megan Langwasser Wei Xu Matthew Gombolay 35 6 0 07 Oct 2024
Aligning Language Models Using Follow-up Likelihood as Reward Signal Chen Zhang Dading Chong Feng Jiang Chengguang Tang Anningzhe Gao Guohua Tang Haizhou Li ALM 29 2 0 20 Sep 2024
VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation Zhijie Wang Zhehua Zhou Jiayang Song Yuheng Huang Zhan Shu Lei Ma LM&Ro 66 5 0 19 Sep 2024
ScriptSmith: A Unified LLM Framework for Enhancing IT Operations via Automated Bash Script Generation, Assessment, and Refinement Oishik Chatterjee Pooja Aggarwal Suranjana Samanta Ting Dai P. Mohapatra ... Ruchi Mahindru Steve Barbieri Eugen Postea Brad Blancett Arthur De Magalhaes 16 1 0 12 Sep 2024
CodeACT: Code Adaptive Compute-efficient Tuning Framework for Code LLMs Weijie Lv Xuan Xia Sheng-Jun Huang ALM 29 2 0 05 Aug 2024
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future Haolin Jin Linghan Huang Haipeng Cai Jun Yan Bo Li Huaming Chen 59 24 0 05 Aug 2024
Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach Yuxuan Wan Chaozheng Wang Yi Dong Wenxuan Wang Shuqing Li Yintong Huo M. Lyu 3DV 66 10 0 24 Jun 2024