OpenAI/o3-2025-01-31-high

Reported on 2 benchmarks across 1 task · 1 paper · 1 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing2 results

Question AnsweringonNewsQA
EM· uses extra data· 2025-01-30
92.52
SOTA
o3-mini vs DeepSeek-R1: Which One is Safer?arXiv:2501.18438
Question AnsweringonNewsQA
F1· uses extra data· 2025-01-30
93.13
best: 94.01 (Riple/Saanvi-v0.5-DeepAnalysis)
o3-mini vs DeepSeek-R1: Which One is Safer?arXiv:2501.18438