Code Generation on HumanEval

Metric: Pass@1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Pass@1▼	Extra Data	Paper	Date↕	Code
1	DeepSeek-R1 (MGDebugger)	100	No	From Code to Correctness: Closing the Last Mile ...	2024-10-02	Code
2	LLaMA 3	99.4	No	Debug like a Human: A Large Language Model Debug...	2024-02-25	Code
3	QualityFlow (Sonnet-3.5)	98.8	No	QualityFlow: An Agentic Workflow for Program Syn...	2025-01-20	-
4	Phi-2	98.2	No	Planning-Driven Programming: A Large Language Mo...	2024-11-21	Code
5	EG-CFG (DeepSeek-V3-0324)	96.95	No	Execution Guided Line-by-Line Code Generation	2025-06-12	Code
6	Mistral 7B	93.9	No	MapCoder: Multi-Agent Code Generation for Compet...	2024-05-18	Code
7	Claude Sonnet 3.5	90.85	No	-	-	-
8	L2MAC (GPT-4)	90.2	No	L2MAC: Large Language Model Automatic Computer f...	2023-10-02	Code

#1DeepSeek-R1 (MGDebugger)SOTA
100
Pass@1· 2024-10-02
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging Code
#2LLaMA 3SOTA
99.4
Pass@1· 2024-02-25
Debug like a Human: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step Code
#3QualityFlow (Sonnet-3.5)
98.8
Pass@1· 2025-01-20
QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks
#4Phi-2
98.2
Pass@1· 2024-11-21
Planning-Driven Programming: A Large Language Model Programming Workflow Code
#5EG-CFG (DeepSeek-V3-0324)
96.95
Pass@1· 2025-06-12
Execution Guided Line-by-Line Code Generation Code
#6Mistral 7B
93.9
Pass@1· 2024-05-18
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving Code
#7Claude Sonnet 3.5
90.85
Pass@1
No paper
#8L2MAC (GPT-4)SOTA
90.2
Pass@1· 2023-10-02
L2MAC: Large Language Model Automatic Computer for Extensive Code Generation Code