Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

Linyuan Gong, Sida Wang, Mostafa Elhoushi, Alvin Cheung

2024-03-07Code Completion

Abstract

We introduce Syntax-Aware Fill-In-the-Middle (SAFIM), a new benchmark for evaluating Large Language Models (LLMs) on the code Fill-in-the-Middle (FIM) task. This benchmark focuses on syntax-aware completions of program structures such as code blocks and conditional expressions, and includes 17,720 examples from multiple programming languages, sourced from recent code submissions after April 2022 to minimize data contamination. SAFIM provides a robust framework with various prompt designs and novel syntax-aware post-processing techniques, facilitating accurate and fair comparisons across LLMs. Our comprehensive evaluation of 15 LLMs shows that FIM pretraining not only enhances FIM proficiency but also improves Left-to-Right (L2R) inference using LLMs. Our findings challenge conventional beliefs and suggest that pretraining methods and data quality have more impact than model size. SAFIM thus serves as a foundational platform for future research in effective pretraining strategies for code LLMs. The evaluation toolkit and dataset are available at https://github.com/gonglinyuan/safim, and the leaderboard is available at https://safimbenchmark.com.

Results

Task	Dataset	Metric	Value	Model
Code Completion	SAFIM	API	75.16	deepseek-coder-33b-base
Code Completion	SAFIM	Algorithmic	60.78	deepseek-coder-33b-base
Code Completion	SAFIM	Average	69.01	deepseek-coder-33b-base
Code Completion	SAFIM	Control	71.1	deepseek-coder-33b-base
Code Completion	SAFIM	API	69.68	deepseek-coder-6.7b-base
Code Completion	SAFIM	Algorithmic	54.74	deepseek-coder-6.7b-base
Code Completion	SAFIM	Average	63.4	deepseek-coder-6.7b-base
Code Completion	SAFIM	Control	65.79	deepseek-coder-6.7b-base
Code Completion	SAFIM	API	68.06	starcoderbase
Code Completion	SAFIM	Algorithmic	44.11	starcoderbase
Code Completion	SAFIM	Average	55.54	starcoderbase
Code Completion	SAFIM	Control	54.46	starcoderbase
Code Completion	SAFIM	API	62.58	gpt-4-1106-preview
Code Completion	SAFIM	Algorithmic	42.11	gpt-4-1106-preview
Code Completion	SAFIM	Average	53.28	gpt-4-1106-preview
Code Completion	SAFIM	Control	55.15	gpt-4-1106-preview
Code Completion	SAFIM	API	59.68	CodeLlama-13b-hf
Code Completion	SAFIM	Algorithmic	41.41	CodeLlama-13b-hf
Code Completion	SAFIM	Average	52.78	CodeLlama-13b-hf
Code Completion	SAFIM	Control	57.25	CodeLlama-13b-hf
Code Completion	SAFIM	API	62.58	deepseek-coder-1.3b-base
Code Completion	SAFIM	Algorithmic	41.2	deepseek-coder-1.3b-base
Code Completion	SAFIM	Average	52.63	deepseek-coder-1.3b-base
Code Completion	SAFIM	Control	54.1	deepseek-coder-1.3b-base
Code Completion	SAFIM	API	56.45	CodeLlama-34b-hf
Code Completion	SAFIM	Algorithmic	38.55	CodeLlama-34b-hf
Code Completion	SAFIM	Average	49.66	CodeLlama-34b-hf
Code Completion	SAFIM	Control	53.98	CodeLlama-34b-hf
Code Completion	SAFIM	API	46.77	CodeLlama-7b-hf
Code Completion	SAFIM	Algorithmic	34.68	CodeLlama-7b-hf
Code Completion	SAFIM	Average	45	CodeLlama-7b-hf
Code Completion	SAFIM	Control	53.56	CodeLlama-7b-hf
Code Completion	SAFIM	API	53.87	gpt-3.5-turbo-0301
Code Completion	SAFIM	Algorithmic	31.24	gpt-3.5-turbo-0301
Code Completion	SAFIM	Average	40.86	gpt-3.5-turbo-0301
Code Completion	SAFIM	Control	37.48	gpt-3.5-turbo-0301
Code Completion	SAFIM	API	48.06	incoder-6B
Code Completion	SAFIM	Algorithmic	25.16	incoder-6B
Code Completion	SAFIM	Average	33.79	incoder-6B
Code Completion	SAFIM	Control	28.16	incoder-6B
Code Completion	SAFIM	API	31.29	codegen-16B-multi
Code Completion	SAFIM	Algorithmic	25.94	codegen-16B-multi
Code Completion	SAFIM	Average	30.99	codegen-16B-multi
Code Completion	SAFIM	Control	35.74	codegen-16B-multi
Code Completion	SAFIM	API	32.26	codegen-2B-multi
Code Completion	SAFIM	Algorithmic	23.49	codegen-2B-multi
Code Completion	SAFIM	Average	29.55	codegen-2B-multi
Code Completion	SAFIM	Control	32.89	codegen-2B-multi
Code Completion	SAFIM	API	43.87	incoder-1B
Code Completion	SAFIM	Algorithmic	21.06	incoder-1B
Code Completion	SAFIM	Average	29.27	incoder-1B
Code Completion	SAFIM	Control	22.89	incoder-1B
Code Completion	SAFIM	API	27.74	codegen-6B-multi
Code Completion	SAFIM	Algorithmic	23.6	codegen-6B-multi
Code Completion	SAFIM	Average	28.71	codegen-6B-multi
Code Completion	SAFIM	Control	34.8	codegen-6B-multi
Code Completion	SAFIM	API	26.45	codegen-350M-multi
Code Completion	SAFIM	Algorithmic	16.3	codegen-350M-multi
Code Completion	SAFIM	Average	22.94	codegen-350M-multi
Code Completion	SAFIM	Control	26.06	codegen-350M-multi

Abstract

Results

Task	Dataset	Metric	Value	Model
Code Completion	SAFIM	API	75.16	deepseek-coder-33b-base
Code Completion	SAFIM	Algorithmic	60.78	deepseek-coder-33b-base
Code Completion	SAFIM	Average	69.01	deepseek-coder-33b-base
Code Completion	SAFIM	Control	71.1	deepseek-coder-33b-base
Code Completion	SAFIM	API	69.68	deepseek-coder-6.7b-base
Code Completion	SAFIM	Algorithmic	54.74	deepseek-coder-6.7b-base
Code Completion	SAFIM	Average	63.4	deepseek-coder-6.7b-base
Code Completion	SAFIM	Control	65.79	deepseek-coder-6.7b-base
Code Completion	SAFIM	API	68.06	starcoderbase
Code Completion	SAFIM	Algorithmic	44.11	starcoderbase
Code Completion	SAFIM	Average	55.54	starcoderbase
Code Completion	SAFIM	Control	54.46	starcoderbase
Code Completion	SAFIM	API	62.58	gpt-4-1106-preview
Code Completion	SAFIM	Algorithmic	42.11	gpt-4-1106-preview
Code Completion	SAFIM	Average	53.28	gpt-4-1106-preview
Code Completion	SAFIM	Control	55.15	gpt-4-1106-preview
Code Completion	SAFIM	API	59.68	CodeLlama-13b-hf
Code Completion	SAFIM	Algorithmic	41.41	CodeLlama-13b-hf
Code Completion	SAFIM	Average	52.78	CodeLlama-13b-hf
Code Completion	SAFIM	Control	57.25	CodeLlama-13b-hf
Code Completion	SAFIM	API	62.58	deepseek-coder-1.3b-base
Code Completion	SAFIM	Algorithmic	41.2	deepseek-coder-1.3b-base
Code Completion	SAFIM	Average	52.63	deepseek-coder-1.3b-base
Code Completion	SAFIM	Control	54.1	deepseek-coder-1.3b-base
Code Completion	SAFIM	API	56.45	CodeLlama-34b-hf
Code Completion	SAFIM	Algorithmic	38.55	CodeLlama-34b-hf
Code Completion	SAFIM	Average	49.66	CodeLlama-34b-hf
Code Completion	SAFIM	Control	53.98	CodeLlama-34b-hf
Code Completion	SAFIM	API	46.77	CodeLlama-7b-hf
Code Completion	SAFIM	Algorithmic	34.68	CodeLlama-7b-hf
Code Completion	SAFIM	Average	45	CodeLlama-7b-hf
Code Completion	SAFIM	Control	53.56	CodeLlama-7b-hf
Code Completion	SAFIM	API	53.87	gpt-3.5-turbo-0301
Code Completion	SAFIM	Algorithmic	31.24	gpt-3.5-turbo-0301
Code Completion	SAFIM	Average	40.86	gpt-3.5-turbo-0301
Code Completion	SAFIM	Control	37.48	gpt-3.5-turbo-0301
Code Completion	SAFIM	API	48.06	incoder-6B
Code Completion	SAFIM	Algorithmic	25.16	incoder-6B
Code Completion	SAFIM	Average	33.79	incoder-6B
Code Completion	SAFIM	Control	28.16	incoder-6B
Code Completion	SAFIM	API	31.29	codegen-16B-multi
Code Completion	SAFIM	Algorithmic	25.94	codegen-16B-multi
Code Completion	SAFIM	Average	30.99	codegen-16B-multi
Code Completion	SAFIM	Control	35.74	codegen-16B-multi
Code Completion	SAFIM	API	32.26	codegen-2B-multi
Code Completion	SAFIM	Algorithmic	23.49	codegen-2B-multi
Code Completion	SAFIM	Average	29.55	codegen-2B-multi
Code Completion	SAFIM	Control	32.89	codegen-2B-multi
Code Completion	SAFIM	API	43.87	incoder-1B
Code Completion	SAFIM	Algorithmic	21.06	incoder-1B
Code Completion	SAFIM	Average	29.27	incoder-1B
Code Completion	SAFIM	Control	22.89	incoder-1B
Code Completion	SAFIM	API	27.74	codegen-6B-multi
Code Completion	SAFIM	Algorithmic	23.6	codegen-6B-multi
Code Completion	SAFIM	Average	28.71	codegen-6B-multi
Code Completion	SAFIM	Control	34.8	codegen-6B-multi
Code Completion	SAFIM	API	26.45	codegen-350M-multi
Code Completion	SAFIM	Algorithmic	16.3	codegen-350M-multi
Code Completion	SAFIM	Average	22.94	codegen-350M-multi
Code Completion	SAFIM	Control	26.06	codegen-350M-multi

Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

Abstract

Results

Related Papers

Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

Abstract

Results

Related Papers