Common Sense Reasoning on BIG-bench

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy ▼	Extra Data	Paper	Date↕	Code
1	Gopher-280B (few-shot, k=5)	63.6	No	Scaling Language Models: Methods, Analysis & Ins...	2021-12-08	Code
2	Chinchilla-70B (few-shot, k=5)	60.3	No	Training Compute-Optimal Large Language Models	2022-03-29	Code
3	Chinchilla-70B (few-shot, k=5)	47.6	No	Training Compute-Optimal Large Language Models	2022-03-29	Code
4	Gopher-280B (few-shot, k=5)	39.6	No	Scaling Language Models: Methods, Analysis & Ins...	2021-12-08	Code

#1Gopher-280B (few-shot, k=5)SOTA
63.6
Accuracy · 2021-12-08
Scaling Language Models: Methods, Analysis & Insights from Training Gopher Code
#2Chinchilla-70B (few-shot, k=5)
60.3
Accuracy · 2022-03-29
Training Compute-Optimal Large Language Models Code
#3Chinchilla-70B (few-shot, k=5)
47.6
Accuracy · 2022-03-29
Training Compute-Optimal Large Language Models Code
#4Gopher-280B (few-shot, k=5)
39.6
Accuracy · 2021-12-08
Scaling Language Models: Methods, Analysis & Insights from Training Gopher Code