TACO: Topics in Algorithmic COde generation dataset

22 December 2023

Papers citing "TACO: Topics in Algorithmic COde generation dataset"

30 / 30 papers shown

Title
Hallucination by Code Generation LLMs: Taxonomy, Benchmarks, Mitigation, and Challenges Yunseo Lee John Youngeun Song Dongsun Kim Jindae Kim Mijung Kim Jaechang Nam HILM LRM 33 0 0 29 Apr 2025
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs Yunhui Xia Wei Shen Yan Wang Jason Klein Liu Huifeng Sun Siyue Wu Jian Hu Xiaolong Xu AI4TS 30 1 0 20 Apr 2025
Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading Qianjin Yu Keyu Wu Zihan Chen Chushu Zhang Manlin Mei Lingjun Huang Fang Tan Yongsheng Du Kunlin Liu Yurui Zhu ELM LRM 55 0 0 16 Apr 2025
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs Wasi Uddin Ahmad Aleksander Ficek Mehrzad Samadi Jocelyn Huang Vahid Noroozi Somshubra Majumdar Boris Ginsburg ALM 35 0 0 05 Apr 2025
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding Wasi Uddin Ahmad Sean Narenthiran Somshubra Majumdar Aleksander Ficek Siddhartha Jain Jocelyn Huang Vahid Noroozi Boris Ginsburg LRM 50 2 0 02 Apr 2025
CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis Anjiang Wei Tarun Suresh Jiannan Cao Naveen Kannan Yuheng Wu Kai Yan Thiago S. F. X. Teixeira Ke Wang Alex Aiken ELM LRM 36 0 0 29 Mar 2025
Soft Policy Optimization: Online Off-Policy RL for Sequence Models Taco Cohen David W. Zhang Kunhao Zheng Yunhao Tang Rémi Munos Gabriel Synnaeve OffRL 81 0 0 07 Mar 2025
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol Roham Koohestani Philippe de Bekker M. Izadi VLM 45 0 0 07 Mar 2025
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding Zhangchen Xu Yang Liu Yueqin Yin Mingyuan Zhou Radha Poovendran ALM OffRL 79 6 0 04 Mar 2025
ProBench: Benchmarking Large Language Models in Competitive Programming Lei Yang Renren Jin Ling Shi Jianxiang Peng Yue Chen Deyi Xiong ReLM ELM LRM 53 2 0 28 Feb 2025
Process Reinforcement through Implicit Rewards Ganqu Cui Lifan Yuan Z. Wang Hanbin Wang Wendi Li ... Yu Cheng Zhiyuan Liu Maosong Sun Bowen Zhou Ning Ding OffRL LRM 68 50 0 03 Feb 2025
How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs Jialun Cao Yuk-Kit Chan Zixuan Ling Wenxuan Wang Shuqing Li ... Pinjia He Shuai Wang Zibin Zheng Michael R. Lyu S. Cheung ALM 69 1 0 18 Jan 2025
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings Shanghaoran Quan Jiaxi Yang Bowen Yu Bo Zheng Dayiheng Liu ... Zeyu Cui Yang Fan Y. Zhang Binyuan Hui Junyang Lin ALM ELM LRM 64 13 0 02 Jan 2025
o1-Coder: an o1 Replication for Coding Yuxiang Zhang Shangxi Wu Yuqi Yang Jiangming Shu Jinlin Xiao Chao Kong Jitao Sang LRM 59 29 0 29 Nov 2024
A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks Rohit Dandamudi Gema Rodríguez-Pérez ELM 74 0 0 23 Nov 2024
Multi-Programming Language Sandbox for LLMs Shihan Dou Jiazheng Zhang Jianxiang Zang Yunbo Tao W. Zhou ... Yixin Cao Tao Gui Xipeng Qiu Qi Zhang Xuanjing Huang 51 1 0 30 Oct 2024
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks Fengji Zhang Linquan Wu Huiyu Bai Guancheng Lin Xiao Li Xiao Yu Yue Wang Bei Chen Jacky Keung MLLM ELM LRM 32 0 0 16 Oct 2024
Learning How Hard to Think: Input-Adaptive Allocation of LM Computation Mehul Damani Idan Shenfeld Andi Peng Andreea Bobu Jacob Andreas 34 14 0 07 Oct 2024
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization Mucong Ding Chenghao Deng Jocelyn Choo Zichu Wu Aakriti Agrawal ... Tianyi Zhou Tom Goldstein John Langford Anima Anandkumar Furong Huang 48 5 0 27 Sep 2024
How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data Yejie Wang Keqing He Dayuan Fu Zhuoma Gongque Heyang Xu ... Muxi Diao Jingang Wang M. Zhang Xunliang Cai Weiran Xu ALM SyDa 29 3 0 05 Sep 2024
Evaluating the Performance of Large Language Models in Competitive Programming: A Multi-Year, Multi-Grade Analysis Adrian Marius Dumitran Adrian Catalin Badea Stefan-Gabriel Muscalu ELM LRM 18 1 0 31 Aug 2024
CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding? Yuwei Zhao Ziyang Luo Yuchen Tian Hongzhan Lin Weixiang Yan Annan Li Jing Ma ELM ALM LRM 37 8 0 20 Aug 2024
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models Somshubra Majumdar Vahid Noroozi Sean Narenthiran Aleksander Ficek Aleksander Ficek Wasi Uddin Ahmad Jocelyn Huang Jagadeesh Balam Boris Ginsburg SyDa 47 2 0 29 Jul 2024
Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models Jia Zheng Boxi Cao Zhengzhao Ma Ruotong Pan Hongyu Lin Yaojie Lu Xianpei Han Le Sun ALM 23 2 0 16 Jul 2024
Can Language Models Solve Olympiad Programming? Quan Shi Michael Tang Karthik Narasimhan Shunyu Yao ELM LRM ReLM 41 21 0 16 Apr 2024
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models Jiawei Guo Ziming Li Xueling Liu Kaijing Ma Tianyu Zheng ... Xingwei Qu Xiang Yue Ge Zhang Wenhu Chen Jie Fu KELM 57 12 0 04 Apr 2024
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code Naman Jain King Han Alex Gu Wen-Ding Li Fanjia Yan Tianjun Zhang Sida I. Wang Armando Solar-Lezama Koushik Sen Ion Stoica ELM 29 260 0 12 Mar 2024
EffiBench: Benchmarking the Efficiency of Automatically Generated Code Dong Huang Yuhao Qing Weiyi Shang Heming Cui Jie M. Zhang 77 30 0 03 Feb 2024
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation Jiawei Liu Chun Xia Yuyao Wang Lingming Zhang ELM ALM 178 780 0 02 May 2023
Measuring Coding Challenge Competence With APPS Dan Hendrycks Steven Basart Saurav Kadavath Mantas Mazeika Akul Arora ... Collin Burns Samir Puranik Horace He D. Song Jacob Steinhardt ELM AIMat ALM 194 614 0 20 May 2021