Question Answering on MMLU (Professional medicine)

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	Med-PaLM 2 (5-shot)	95.2	No	Towards Expert-Level Medical Question Answering ...	2023-05-16	Code
2	Med-PaLM 2 (CoT + SC)	93.4	No	Towards Expert-Level Medical Question Answering ...	2023-05-16	Code
3	Med-PaLM 2 (ER)	92.3	No	Towards Expert-Level Medical Question Answering ...	2023-05-16	Code
4	BioMedGPT-LM-7B	51.1	No	BioMedGPT: Open Multimodal Generative Pre-traine...	2023-08-18	Code
5	Llama2-7B	43.38	No	Llama 2: Open Foundation and Fine-Tuned Chat Mod...	2023-07-18	Code
6	Llama2-7B-chat	40.07	No	Llama 2: Open Foundation and Fine-Tuned Chat Mod...	2023-07-18	Code

#1Med-PaLM 2 (5-shot)SOTA
95.2
Accuracy· 2023-05-16
Towards Expert-Level Medical Question Answering with Large Language Models Code
#2Med-PaLM 2 (CoT + SC)
93.4
Accuracy· 2023-05-16
Towards Expert-Level Medical Question Answering with Large Language Models Code
#3Med-PaLM 2 (ER)
92.3
Accuracy· 2023-05-16
Towards Expert-Level Medical Question Answering with Large Language Models Code
#4BioMedGPT-LM-7B
51.1
Accuracy· 2023-08-18
BioMedGPT: Open Multimodal Generative Pre-trained Transformer for BioMedicine Code
#5Llama2-7B
43.38
Accuracy· 2023-07-18
Llama 2: Open Foundation and Fine-Tuned Chat Models Code
#6Llama2-7B-chat
40.07
Accuracy· 2023-07-18
Llama 2: Open Foundation and Fine-Tuned Chat Models Code