Common Sense Reasoning on BIG-bench (Winowhy)

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	PaLM-540B (few-shot, k=5)	65.9	No	PaLM: Scaling Language Modeling with Pathways	2022-04-05	Code
2	Chinchilla-70B (few-shot, k=5)	62.5	No	Training Compute-Optimal Large Language Models	2022-03-29	Code
3	PaLM-62B (few-shot, k=5)	61	No	PaLM: Scaling Language Modeling with Pathways	2022-04-05	Code
4	Gopher-280B (few-shot, k=5)	56.7	No	Scaling Language Models: Methods, Analysis & Ins...	2021-12-08	Code

#1PaLM-540B (few-shot, k=5)SOTA
65.9
Accuracy· 2022-04-05
PaLM: Scaling Language Modeling with Pathways Code
#2Chinchilla-70B (few-shot, k=5)SOTA
62.5
Accuracy· 2022-03-29
Training Compute-Optimal Large Language Models Code
#3PaLM-62B (few-shot, k=5)
61
Accuracy· 2022-04-05
PaLM: Scaling Language Modeling with Pathways Code
#4Gopher-280B (few-shot, k=5)SOTA
56.7
Accuracy· 2021-12-08
Scaling Language Models: Methods, Analysis & Insights from Training Gopher Code