Mathematical Reasoning on Lila (OOD)

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	Codex (Few-Shot, 175B)	0.586	No	Lila: A Unified Benchmark for Mathematical Reaso...	2022-10-31	Code
2	Bhāskara-P (Fine-tuned, 2.7B)	0.448	No	Lila: A Unified Benchmark for Mathematical Reaso...	2022-10-31	Code
3	GPT-3 (Few-Shot, 175B)	0.384	No	Lila: A Unified Benchmark for Mathematical Reaso...	2022-10-31	Code
4	Bhāskara-A (Fine-tuned, 2.7B)	0.268	No	Lila: A Unified Benchmark for Mathematical Reaso...	2022-10-31	Code
5	Neo-P (Fine-tuned, 2.7B)	0.238	No	Lila: A Unified Benchmark for Mathematical Reaso...	2022-10-31	Code
6	Neo-A (Fine-tuned, 2.7B)	0.177	No	Lila: A Unified Benchmark for Mathematical Reaso...	2022-10-31	Code

#1Codex (Few-Shot, 175B)SOTA
0.586
Accuracy· 2022-10-31
Lila: A Unified Benchmark for Mathematical Reasoning Code
#2Bhāskara-P (Fine-tuned, 2.7B)
0.448
Accuracy· 2022-10-31
Lila: A Unified Benchmark for Mathematical Reasoning Code
#3GPT-3 (Few-Shot, 175B)
0.384
Accuracy· 2022-10-31
Lila: A Unified Benchmark for Mathematical Reasoning Code
#4Bhāskara-A (Fine-tuned, 2.7B)
0.268
Accuracy· 2022-10-31
Lila: A Unified Benchmark for Mathematical Reasoning Code
#5Neo-P (Fine-tuned, 2.7B)
0.238
Accuracy· 2022-10-31
Lila: A Unified Benchmark for Mathematical Reasoning Code
#6Neo-A (Fine-tuned, 2.7B)
0.177
Accuracy· 2022-10-31
Lila: A Unified Benchmark for Mathematical Reasoning Code