CoDesc: A Large Code-Description Parallel Dataset

CoDesc: A Large Code-Description Parallel Dataset

29 May 2021

Tanveer Muttaqueen

Abdullah Al Ishtiaq

Kazi Sajeed Mehrab

Md. Mahim Anjum Haque

Wasi Uddin Ahmad

Rifat Shahriyar

Papers citing "CoDesc: A Large Code-Description Parallel Dataset"

8 / 8 papers shown

Title
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation Zhaojian Yu Yilun Zhao Arman Cohan Xiao-Ping Zhang LRM 36 2 0 03 Jan 2025
Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit Yao Wan Yang He Zhangqian Bi Jianguo Zhang Hongyu Zhang Yulei Sui Guandong Xu Hai Jin Philip S. Yu 35 20 0 30 Dec 2023
Bias Testing and Mitigation in LLM-based Code Generation Dong Huang Qingwen Bu Jie M. Zhang Xiaofei Xie Junjie Chen Heming Cui 45 20 0 03 Sep 2023
CCT-Code: Cross-Consistency Training for Multilingual Clone Detection and Code Search Nikita Sorokin Dmitry Abulkhanov Sergey I. Nikolenko Valentin Malykh 29 3 0 19 May 2023
Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets I. Sedykh Dmitry Abulkhanov Nikita Sorokin Sergey I. Nikolenko Valentin Malykh 21 1 0 19 May 2023
The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation Dũng Nguyễn Mạnh Nam Le Hai An Dau A. Nguyen Khanh N. Nghiem Jingnan Guo Nghi D. Q. Bui 31 15 0 09 May 2023
Multilingual training for Software Engineering Toufique Ahmed Prem Devanbu 62 73 0 03 Dec 2021
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,959 0 20 Apr 2018