CodeBERT: A Pre-Trained Model for Programming and Natural Languages

19 February 2020

Papers citing "CodeBERT: A Pre-Trained Model for Programming and Natural Languages"

50 / 222 papers shown

Title
Learning Program Behavioral Models from Synthesized Input-Output Pairs Tural Mammadov Dietrich Klakow Alexander Koller Andreas Zeller 39 3 0 11 Jul 2024
Prompting Techniques for Secure Code Generation: A Systematic Investigation Catherine Tony Nicolás E. Díaz Ferreyra Markus Mutas Salem Dhiff Riccardo Scandariato SILM 69 9 0 09 Jul 2024
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models Xiangyang Li Kuicai Dong Yi Quan Lee Wei Xia Yichun Yin Xinyi Dai Yasheng Wang Ruiming Tang 57 15 0 03 Jul 2024
Aligning Programming Language and Natural Language: Exploring Design Choices in Multi-Modal Transformer-Based Embedding for Bug Localization Partha Chakraborty Venkatraman Arumugam M. Nagappan 26 0 0 25 Jun 2024
Leveraging Large Language Models for Efficient Failure Analysis in Game Development Leonardo Marini Linus Gisslén Alessandro Sestini 43 0 0 11 Jun 2024
An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection Shenao Yan Shen Wang Yue Duan Hanbin Hong Kiho Lee Doowon Kim Yuan Hong AAML SILM 35 16 0 10 Jun 2024
ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation Houxing Ren Mingjie Zhan Zhongyuan Wu Aojun Zhou Junting Pan Hongsheng Li SyDa 32 7 0 27 May 2024
Large Language Models for Cyber Security: A Systematic Literature Review HanXiang Xu Shenao Wang Ningke Li K. Wang Yanjie Zhao Kai Chen Ting Yu Yang Janet Liu H. Wang 29 23 0 08 May 2024
LLMs for Coding and Robotics Education Peng Shu Huaqin Zhao Hanqi Jiang Yiwei Li Shaochen Xu ... Zheng Liu Guoyu Lu Le Guan Gong Chen Xianqiao Wang Tianming Liu 30 5 0 09 Feb 2024
Text-to-Code Generation with Modality-relative Pre-training Fenia Christopoulou Guchun Zhang Gerasimos Lampouras AI4TS 13 1 0 08 Feb 2024
Rocks Coding, Not Development--A Human-Centric, Experimental Evaluation of LLM-Supported SE Tasks Wei Wang Huilong Ning Gaowei Zhang Libo Liu Yi Wang 24 11 0 08 Feb 2024
UniTSyn: A Large-Scale Dataset Capable of Enhancing the Prowess of Large Language Models for Program Testing Yifeng He Jiabo Huang Yuyang Rong Yiwen Guo Ethan Wang Hao Chen 19 4 0 04 Feb 2024
A Systematic Literature Review on Explainability for Machine/Deep Learning-based Software Engineering Research Sicong Cao Xiaobing Sun Ratnadira Widyasari David Lo Xiaoxue Wu ... Jiale Zhang Bin Li Wei Liu Di Wu Yixin Chen 24 6 0 26 Jan 2024
Are Latent Vulnerabilities Hidden Gems for Software Vulnerability Prediction? An Empirical Study T. H. Le Xiaoning Du Muhammad Ali Babar 23 7 0 20 Jan 2024
KernelGPT: Enhanced Kernel Fuzzing via Large Language Models Chenyuan Yang Zijie Zhao Lingming Zhang 25 13 0 31 Dec 2023
Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit Yao Wan Yang He Zhangqian Bi Jianguo Zhang Hongyu Zhang Yulei Sui Guandong Xu Hai Jin Philip S. Yu 27 20 0 30 Dec 2023
A Prompt Learning Framework for Source Code Summarization Weisong Sun Chunrong Fang Yudu You Yuchen Chen Yi Liu ... Quanjun Zhang Hanwei Qian Wei-Ye Zhao Yang Liu Zhenyu Chen LLMAG 37 13 0 26 Dec 2023
A Comprehensive Evaluation of Parameter-Efficient Fine-Tuning on Software Engineering Tasks Wentao Zou Qi Li Jidong Ge Chuanyi Li Xiaoyu Shen LiGuo Huang Bin Luo 24 5 0 25 Dec 2023
Towards Trustworthy AI Software Development Assistance Daniel Maninger Krishna Narasimhan Mira Mezini 22 3 0 14 Dec 2023
Graph Convolutions Enrich the Self-Attention in Transformers! Jeongwhan Choi Hyowon Wi Jayoung Kim Yehjin Shin Kookjin Lee Nathaniel Trask Noseong Park 25 4 0 07 Dec 2023
Transfer Attacks and Defenses for Large Language Models on Coding Tasks Chi Zhang Zifan Wang Ravi Mangal Matt Fredrikson Limin Jia Corina S. Pasareanu AAML SILM 21 1 0 22 Nov 2023
CompCodeVet: A Compiler-guided Validation and Enhancement Approach for Code Dataset Le Chen Arijit Bhattacharjee Nesreen K. Ahmed N. Hasabnis Gal Oren Bin Lei Ali Jannesari LRM 24 3 0 11 Nov 2023
Conversational AI Threads for Visualizing Multidimensional Datasets Matt-Heun Hong Anamaria Crisan 16 8 0 09 Nov 2023
Configuration Validation with Large Language Models Xinyu Lian Yinfang Chen Runxiang Cheng Jie Huang Parth Thakkar Minjia Zhang Tianyin Xu 11 10 0 15 Oct 2023
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules Hung Le Hailin Chen Amrita Saha Akash Gokul Doyen Sahoo Shafiq R. Joty LRM 28 42 0 13 Oct 2023
Towards Causal Deep Learning for Vulnerability Detection Md. Mahbubur Rahman Ira Ceka Chengzhi Mao Saikat Chakraborty Baishakhi Ray Wei Le 18 10 0 12 Oct 2023
Reranking for Natural Language Generation from Logical Forms: A Study based on Large Language Models Levon Haroutunian Zhuang Li Lucian Galescu Philip R. Cohen Raj Tumuluri Gholamreza Haffari LRM 19 1 0 21 Sep 2023
A Full-fledged Commit Message Quality Checker Based on Machine Learning David Faragó Michael Färber Christian Petrov 19 1 0 09 Sep 2023
Bias Testing and Mitigation in LLM-based Code Generation Dong Huang Qingwen Bu Jie M. Zhang Xiaofei Xie Junjie Chen Heming Cui 36 20 0 03 Sep 2023
A Multi-Task Semantic Decomposition Framework with Task-specific Pre-training for Few-Shot NER Guanting Dong Zechen Wang Jinxu Zhao Gang Zhao Daichi Guo ... Keqing He Xuefeng Li Liwen Wang Xinyue Cui Weiran Xu 32 19 0 28 Aug 2023
kTrans: Knowledge-Aware Transformer for Binary Code Embedding Wenyu Zhu Hao Wang Yuchen Zhou Jiaming Wang Zihan Sha Zeyu Gao Chao Zhang 24 10 0 24 Aug 2023
Towards General Text Embeddings with Multi-stage Contrastive Learning Zehan Li Xin Zhang Yanzhao Zhang Dingkun Long Pengjun Xie Meishan Zhang 52 336 0 07 Aug 2023
An Empirical Study of AI-based Smart Contract Creation Rabimba Karanjai Edward Li Lei Xu W. Shi 16 9 0 05 Aug 2023
CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code Nadezhda Chirkova Sergey Troshin 21 8 0 01 Aug 2023
A Lightweight Framework for High-Quality Code Generation Mohammed Latif Siddiq B.K. Casey Joanna C. S. Santos 36 17 0 17 Jul 2023
Exploring Continual Learning for Code Generation Models Prateek Yadav Q. Sun Hantian Ding Xiaopeng Li Dejiao Zhang ... Parminder Bhatia Ramesh Nallapati M. K. Ramanathan Mohit Bansal Bing Xiang CLL 30 29 0 05 Jul 2023
Natural Language Generation and Understanding of Big Code for AI-Assisted Programming: A Review M. Wong Shangxin Guo Ching Nam Hang Siu-Wai Ho C. Tan 33 78 0 04 Jul 2023
How Effective Are Neural Networks for Fixing Security Vulnerabilities Yi Wu Nan Jiang H. Pham Thibaud Lutellier Jordan Davis Lin Tan Petr Babkin Sameena Shah AAML 19 78 0 29 May 2023
Neural Machine Translation for Code Generation K. Dharma Clayton T. Morrison 30 4 0 22 May 2023
CCT-Code: Cross-Consistency Training for Multilingual Clone Detection and Code Search Nikita Sorokin Dmitry Abulkhanov Sergey I. Nikolenko Valentin Malykh 21 3 0 19 May 2023
Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets I. Sedykh Dmitry Abulkhanov Nikita Sorokin Sergey I. Nikolenko Valentin Malykh 16 1 0 19 May 2023
ProgSG: Cross-Modality Representation Learning for Programs in Electronic Design Automation Yunsheng Bai Atefeh Sohrabizadeh Zongyue Qin Ziniu Hu Yizhou Sun Jason Cong 18 1 0 18 May 2023
The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation Dũng Nguyễn Mạnh Nam Le Hai An Dau A. Nguyen Khanh N. Nghiem Jingnan Guo Nghi D. Q. Bui 26 13 0 09 May 2023
The EarlyBIRD Catches the Bug: On Exploiting Early Layers of Encoder Models for More Efficient Code Classification Anastasiia Grishina Max Hort Leon Moonen 22 6 0 08 May 2023
TASTY: A Transformer based Approach to Space and Time complexity K. Moudgalya Ankit Ramakrishnan Vamsikrishna Chemudupati Xinghai Lu 8 3 0 06 May 2023
Stochastic Code Generation Swapnil Sharma Nikita Anand V. KranthiKiranG. SyDa 19 0 0 14 Apr 2023
Towards Efficient Fine-tuning of Pre-trained Code Models: An Experimental Study and Beyond Ensheng Shi Yanlin Wang Hongyu Zhang Lun Du Shi Han Dongmei Zhang Hongbin Sun 28 42 0 11 Apr 2023
"It's Weird That it Knows What I Want": Usability and Interactions with Copilot for Novice Programmers James Prather B. Reeves Paul Denny Brett A. Becker Juho Leinonen Andrew Luxton-Reilly Garrett B. Powell James Finnie-Ansley E. Santos 29 131 0 05 Apr 2023
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X Qinkai Zheng Xiao Xia Xu Zou Yuxiao Dong Shanshan Wang ... Andi Wang Yang Li Teng Su Zhilin Yang Jie Tang ELM ALM SyDa 50 314 0 30 Mar 2023
Neuro-Symbolic Execution of Generic Source Code Yaojie Hu Jin Tian NAI 22 0 0 23 Mar 2023