Process Supervision (GPT-4)

Reported on 4 benchmarks across 4 tasks · 1 paper · 4 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Knowledge Base2 results

Mathematical Question AnsweringonMATH minival
Accuracy· uses extra data· 2023-05-31
78.2
SOTA
Let's Verify Step by Step arXiv:2305.20050
Mathematical ReasoningonMATH minival
Accuracy· uses extra data· 2023-05-31
78.2
SOTA
Let's Verify Step by Step arXiv:2305.20050

Natural Language Processing1 result

Question AnsweringonMATH minival
Accuracy· uses extra data· 2023-05-31
78.2
SOTA
Let's Verify Step by Step arXiv:2305.20050

Reasoning1 result

Math Word Problem SolvingonMATH minival
Accuracy· uses extra data· 2023-05-31
78.2
SOTA
Let's Verify Step by Step arXiv:2305.20050