WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning

20 December 2023

Papers citing "WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning"

23 / 23 papers shown

Title
Risk Assessment Framework for Code LLMs via Leveraging Internal States Yuheng Huang Lei Ma Keizaburo Nishikino Takumi Akazaki 24 0 0 20 Apr 2025
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs Wasi Uddin Ahmad Aleksander Ficek Mehrzad Samadi Jocelyn Huang Vahid Noroozi Somshubra Majumdar Boris Ginsburg ALM 32 0 0 05 Apr 2025
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding Wasi Uddin Ahmad Sean Narenthiran Somshubra Majumdar Aleksander Ficek Siddhartha Jain Jocelyn Huang Vahid Noroozi Boris Ginsburg LRM 50 2 0 02 Apr 2025
Z1: Efficient Test-time Scaling with Code Zhaojian Yu Yinghao Wu Yilun Zhao Arman Cohan Xiao-Ping Zhang LRM 34 1 0 01 Apr 2025
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation Wei Li Xin Zhang Zhongxin Guo Shaoguang Mao Wen Luo Guangyue Peng Yangyu Huang Houfeng Wang Scarlett Li 55 0 0 09 Mar 2025
Robust Learning of Diverse Code Edits Tushar Aggarwal Swayam Singh Abhijeet Awasthi Aditya Kanade Nagarajan Natarajan SyDa 82 0 0 05 Mar 2025
GiFT: Gibbs Fine-Tuning for Code Generation Haochen Li Wanjin Feng Xin Zhou Zhiqi Shen SyDa 68 1 0 17 Feb 2025
RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation C. Zhou Xinyu Zhang Dandan Song Xiancai Chen Wanli Gu Huipeng Ma Yuhang Tian M. Zhang Linmei Hu 63 1 0 13 Feb 2025
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation Zhaojian Yu Yilun Zhao Arman Cohan Xiao-Ping Zhang LRM 36 2 0 03 Jan 2025
WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models Huawen Feng Pu Zhao Qingfeng Sun Can Xu Fangkai Yang ... Qianli Ma Qingwei Lin Saravan Rajmohan Dongmei Zhang Qi Zhang AAML ALM 62 0 0 23 Dec 2024
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology Wei Xie Shuoyoucheng Ma Zhenhua Wang Enze Wang Kai Chen Xiaobing Sun Baosheng Wang LRM 38 0 0 19 Oct 2024
Mastering the Craft of Data Synthesis for CodeLLMs Meng Chen Philip Arthur Qianyu Feng Cong Duy Vu Hoang Yu-Heng Hong ... Mark Johnson K. K. Don Dharmasiri Long Duong Yuan-Fang Li SyDa 46 1 0 16 Oct 2024
CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair Mingjie Liu Yun-Da Tsai Wenfei Zhou Haoxing Ren SyDa 3DV 45 3 0 19 Sep 2024
Qwen2.5-Coder Technical Report Binyuan Hui Jian Yang Zeyu Cui Jiaxi Yang Dayiheng Liu ... Fei Huang Xingzhang Ren Xuancheng Ren Jingren Zhou Junyang Lin OSLM 70 195 0 18 Sep 2024
I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm Yiming Liang Ge Zhang Xingwei Qu Tianyu Zheng Jiawei Guo ... Jiaheng Liu Chenghua Lin Lei Ma Wenhao Huang Jiajun Zhang ALM 37 5 0 15 Aug 2024
Exploring the Potential of Large Language Models for Improving Digital Forensic Investigation Efficiency Akila Wickramasekara F. Breitinger Mark Scanlon 42 7 0 29 Feb 2024
Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low Training Data Instruction Tuning Haowen Chen Yiming Zhang Qi Zhang Hantao Yang Xiaomeng Hu Xuetao Ma Yifan YangGong J. Zhao ALM 61 46 0 16 May 2023
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation Jiawei Liu Chun Xia Yuyao Wang Lingming Zhang ELM ALM 178 780 0 02 May 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation Yue Wang Weishi Wang Shafiq R. Joty S. Hoi 204 1,451 0 02 Sep 2021
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 237 588 0 14 Jul 2021
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation Shuai Lu Daya Guo Shuo Ren Junjie Huang Alexey Svyatkovskiy ... Nan Duan Neel Sundaresan Shao Kun Deng Shengyu Fu Shujie Liu ELM 190 853 0 09 Feb 2021