Mathematical Reasoning on FrontierMath

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	o3	0.252	No	-	-	-
2	Gemini 1.5 Pro (002)	0.02	No	FrontierMath: A Benchmark for Evaluating Advance...	2024-11-07	-
3	Claude 3.5 Sonnet	0.01	No	-	-	-
4	o1-preview	0.01	No	-	-	-
5	o1-mini	0.01	No	-	-	-
6	GPT-4o	0.01	No	-	-	-

#1o3
0.252
Accuracy
No paper
#2Gemini 1.5 Pro (002)SOTA
0.02
Accuracy· 2024-11-07
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI
#3Claude 3.5 Sonnet
0.01
Accuracy
No paper
#4o1-preview
0.01
Accuracy
No paper
#5o1-mini
0.01
Accuracy
No paper
#6GPT-4o
0.01
Accuracy
No paper