CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation

Shuai Lu, Daya Guo, Shuo Ren, JunJie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu

2021-02-09Cloze Test Text-to-Code Generation Code Translation Code Completion Defect Detection Clone Detection Document Translation Code Summarization Code Repair Code Search Code Generation BIG-bench Machine Learning

Paper PDF Code Code Code Code Code Code(official)Code

Abstract

Benchmark datasets have a significant impact on accelerating research in programming language tasks. In this paper, we introduce CodeXGLUE, a benchmark dataset to foster machine learning research for program understanding and generation. CodeXGLUE includes a collection of 10 tasks across 14 datasets and a platform for model evaluation and comparison. CodeXGLUE also features three baseline systems, including the BERT-style, GPT-style, and Encoder-Decoder models, to make it easy for researchers to use the platform. The availability of such data and baselines can help the development and validation of new methods that can be applied to various program understanding and generation problems.

Results

Task	Dataset	Metric	Value	Model
Code Generation	CodeXGLUE - CodeTrans	Accuracy (C#→Java)	58	CodeBERT
Code Generation	CodeXGLUE - CodeTrans	Accuracy (Java→C#)	59	CodeBERT
Code Generation	CodeXGLUE - CodeTrans	BLEU (C#→Java)	72.14	CodeBERT
Code Generation	CodeXGLUE - CodeTrans	BLEU (Java→C#)	79.92	CodeBERT
Code Generation	CodeXGLUE - CodeTrans	CodeBLEU (C#→Java)	79.41	CodeBERT
Code Generation	CodeXGLUE - CodeTrans	CodeBLEU (Java→C#)	85.1	CodeBERT
Code Search	CodeXGLUE - AdvTest	MRR	27.19	CodeBERT
Code Search	CodeXGLUE - WebQueryTest	Accuracy	47.8	CodeBERT
Code Search	CodeXGLUE - WebQueryTest	F1	58.95	CodeBERT
Cloze Test	CodeXGLUE - CT-all	Go	83.31	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-all	JS	81.77	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-all	Java	80.63	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-all	PHP	85.05	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-all	Python	87.21	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-all	Ruby	80.17	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-maxmin	Go	90.79	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-maxmin	JS	86.4	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-maxmin	Java	90.46	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-maxmin	PHP	88.21	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-maxmin	Python	82.2	CodeBERT(MLM)
Cloze Test	CodeXGLUE - CT-maxmin	Ruby	86.84	CodeBERT(MLM)
Text-to-Code Generation	CodeXGLUE - CONCODE	BLEU	32.79	CodeGPT-adapted
Text-to-Code Generation	CodeXGLUE - CONCODE	CodeBLEU	27.74	CodeGPT-adapted
Text-to-Code Generation	CodeXGLUE - CONCODE	EM	20.1	CodeGPT-adapted
Code Repair	CodeXGLUE - Bugs2Fix	Accuracy (medium)	5.2	CodeBERT
Code Repair	CodeXGLUE - Bugs2Fix	Accuracy (small)	16.4	CodeBERT
Code Repair	CodeXGLUE - Bugs2Fix	BLEU (medium)	91.07	CodeBERT
Code Repair	CodeXGLUE - Bugs2Fix	BLEU (small)	77.42	CodeBERT
Code Repair	CodeXGLUE - Bugs2Fix	CodeBLEU (medium)	87.52	CodeBERT
Code Repair	CodeXGLUE - Bugs2Fix	CodeBLEU (small)	75.58	CodeBERT
Code Completion	CodeXGLUE - Github Java Corpus	Accuracy (token-level)	77.13	CodeGPT-adapted
Code Completion	CodeXGLUE - Github Java Corpus	EM (line-level)	26.43	CodeGPT-adapted
Code Completion	CodeXGLUE - Github Java Corpus	Edit Sim (line-level)	63.03	CodeGPT-adapted
Code Completion	CodeXGLUE - PY150	Accuracy (token-level)	75.11	CodeGPT-adapted
Code Completion	CodeXGLUE - PY150	EM (line-level)	39.65	CodeGPT-adapted
Code Completion	CodeXGLUE - PY150	Edit Sim (line-level)	69.84	CodeGPT-adapted

CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation

Abstract

Results

Related Papers

CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation

Abstract

Results

Related Papers