Instruction Following on IFEval

Metric: Prompt-level strict-accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Prompt-level strict-accuracy▼	Extra Data	Paper	Date↕	Code
1	AutoIF (Llama3 70B)	80.2	No	Self-play with Execution Feedback: Improving Ins...	2024-06-19	Code
2	AutoIF (Qwen2 72B)	80.2	No	Self-play with Execution Feedback: Improving Ins...	2024-06-19	Code
3	GPT-4	76.89	No	Instruction-Following Evaluation for Large Langu...	2023-11-14	Code
4	PaLM 2 S	43.07	No	Instruction-Following Evaluation for Large Langu...	2023-11-14	Code

#1AutoIF (Llama3 70B)SOTA
80.2
Prompt-level strict-accuracy· 2024-06-19
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models Code
#2AutoIF (Qwen2 72B)
80.2
Prompt-level strict-accuracy· 2024-06-19
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models Code
#3GPT-4SOTA
76.89
Prompt-level strict-accuracy· 2023-11-14
Instruction-Following Evaluation for Large Language Models Code
#4PaLM 2 S
43.07
Prompt-level strict-accuracy· 2023-11-14
Instruction-Following Evaluation for Large Language Models Code