GPT-4-code model (w/ code)

Reported on 4 benchmarks across 4 tasks · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Knowledge Base2 results

Mathematical Question AnsweringonMATH
Accuracy· 2023-08-15
69.7
best: 89.7 (Gemini 2.0 Flash Experimental)
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification arXiv:2308.07921
Mathematical ReasoningonMATH
Accuracy· 2023-08-15
69.7
best: 89.7 (Gemini 2.0 Flash Experimental)
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification arXiv:2308.07921

Natural Language Processing1 result

Question AnsweringonMATH
Accuracy· 2023-08-15
69.7
best: 89.7 (Gemini 2.0 Flash Experimental)
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification arXiv:2308.07921

Reasoning1 result

Math Word Problem SolvingonMATH
Accuracy· 2023-08-15
69.7
best: 89.7 (Gemini 2.0 Flash Experimental)
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification arXiv:2308.07921