Question Answering on DROP

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	PaLM 540B (Self Improvement, Self Consistency)	83	No	Large Language Models Can Self-Improve	2022-10-20	-
2	PaLM 540B (Self Consistency)	78.2	No	Large Language Models Can Self-Improve	2022-10-20	-
3	PaLM 540B (Self Improvement, CoT Prompting)	76.2	No	Large Language Models Can Self-Improve	2022-10-20	-
4	PaLM 540B (Self Improvement, Standard-Prompting)	71.7	No	Large Language Models Can Self-Improve	2022-10-20	-
5	PaLM 540B (CoT Prompting)	70.6	No	Large Language Models Can Self-Improve	2022-10-20	-
6	PaLM 540B (Standard-Prompting)	60	No	Large Language Models Can Self-Improve	2022-10-20	-

#1PaLM 540B (Self Improvement, Self Consistency)SOTA
83
Accuracy· 2022-10-20
Large Language Models Can Self-Improve
#2PaLM 540B (Self Consistency)
78.2
Accuracy· 2022-10-20
Large Language Models Can Self-Improve
#3PaLM 540B (Self Improvement, CoT Prompting)
76.2
Accuracy· 2022-10-20
Large Language Models Can Self-Improve
#4PaLM 540B (Self Improvement, Standard-Prompting)
71.7
Accuracy· 2022-10-20
Large Language Models Can Self-Improve
#5PaLM 540B (CoT Prompting)
70.6
Accuracy· 2022-10-20
Large Language Models Can Self-Improve
#6PaLM 540B (Standard-Prompting)
60
Accuracy· 2022-10-20
Large Language Models Can Self-Improve