Instruction Following on IFEval

Metric: Prompt-level loose-accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Prompt-level loose-accuracy▼	Extra Data	Paper	Date↕	Code
1	AutoIF (Llama3 70B)	85.6	No	Self-play with Execution Feedback: Improving Ins...	2024-06-19	Code
2	AutoIF (Qwen2 72B)	82.3	No	Self-play with Execution Feedback: Improving Ins...	2024-06-19	Code
3	GPT-4	79.3	No	Instruction-Following Evaluation for Large Langu...	2023-11-14	Code
4	PaLM 2 S	46.95	No	Instruction-Following Evaluation for Large Langu...	2023-11-14	Code

#1AutoIF (Llama3 70B)SOTA
85.6
Prompt-level loose-accuracy· 2024-06-19
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models Code
#2AutoIF (Qwen2 72B)
82.3
Prompt-level loose-accuracy· 2024-06-19
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models Code
#3GPT-4SOTA
79.3
Prompt-level loose-accuracy· 2023-11-14
Instruction-Following Evaluation for Large Language Models Code
#4PaLM 2 S
46.95
Prompt-level loose-accuracy· 2023-11-14
Instruction-Following Evaluation for Large Language Models Code