Instruction Following on IFEval

Metric: Inst-level strict-accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Inst-level strict-accuracy▼	Extra Data	Paper	Date↕	Code
1	AutoIF (Llama3 70B)	86.7	No	Self-play with Execution Feedback: Improving Ins...	2024-06-19	Code
2	AutoIF (Qwen2 72B)	86.1	No	Self-play with Execution Feedback: Improving Ins...	2024-06-19	Code
3	GPT-4	83.57	No	Instruction-Following Evaluation for Large Langu...	2023-11-14	Code
4	PaLM 2 S	55.76	No	Instruction-Following Evaluation for Large Langu...	2023-11-14	Code

#1AutoIF (Llama3 70B)SOTA
86.7
Inst-level strict-accuracy· 2024-06-19
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models Code
#2AutoIF (Qwen2 72B)
86.1
Inst-level strict-accuracy· 2024-06-19
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models Code
#3GPT-4SOTA
83.57
Inst-level strict-accuracy· 2023-11-14
Instruction-Following Evaluation for Large Language Models Code
#4PaLM 2 S
55.76
Inst-level strict-accuracy· 2023-11-14
Instruction-Following Evaluation for Large Language Models Code