Question Answering on MMLU (College Biology)

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	Med-PaLM 2 (ER)	95.8	No	Towards Expert-Level Medical Question Answering ...	2023-05-16	Code
2	Med-PaLM 2 (CoT + SC)	95.1	No	Towards Expert-Level Medical Question Answering ...	2023-05-16	Code
3	Med-PaLM 2 (5-shot)	94.4	No	Towards Expert-Level Medical Question Answering ...	2023-05-16	Code
4	Chinchilla (few-shot, k=5)	79.9	No	Galactica: A Large Language Model for Science	2022-11-16	Code
5	Gopher (few-shot, k=5)	70.8	No	Galactica: A Large Language Model for Science	2022-11-16	Code
6	GAL 120B (zero-shot)	68.8	No	Galactica: A Large Language Model for Science	2022-11-16	Code
7	OPT (few-shot, k=5)	30.6	No	Galactica: A Large Language Model for Science	2022-11-16	Code
8	BLOOM (few-shot, k=5)	28.5	No	Galactica: A Large Language Model for Science	2022-11-16	Code

#1Med-PaLM 2 (ER)SOTA
95.8
Accuracy· 2023-05-16
Towards Expert-Level Medical Question Answering with Large Language Models Code
#2Med-PaLM 2 (CoT + SC)
95.1
Accuracy· 2023-05-16
Towards Expert-Level Medical Question Answering with Large Language Models Code
#3Med-PaLM 2 (5-shot)
94.4
Accuracy· 2023-05-16
Towards Expert-Level Medical Question Answering with Large Language Models Code
#4Chinchilla (few-shot, k=5)SOTA
79.9
Accuracy· 2022-11-16
Galactica: A Large Language Model for Science Code
#5Gopher (few-shot, k=5)
70.8
Accuracy· 2022-11-16
Galactica: A Large Language Model for Science Code
#6GAL 120B (zero-shot)
68.8
Accuracy· 2022-11-16
Galactica: A Large Language Model for Science Code
#7OPT (few-shot, k=5)
30.6
Accuracy· 2022-11-16
Galactica: A Large Language Model for Science Code
#8BLOOM (few-shot, k=5)
28.5
Accuracy· 2022-11-16
Galactica: A Large Language Model for Science Code