Search-o1

Reported on 5 benchmarks across 3 tasks · 1 paper · 2 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing3 results

Question AnsweringonNatural Questions
EM· 2025-01-09
34
best: 64 (Atlas (full, Wiki-dec-2018 index))
Search-o1: Agentic Search-Enhanced Large Reasoning Models arXiv:2501.05366
Question AnsweringonTriviaQA
F1· 2025-01-09
74.1
best: 83.6 (SpanBERT)
Search-o1: Agentic Search-Enhanced Large Reasoning Models arXiv:2501.05366
Code GenerationonLivecodebench
Acc· uses extra data· 2025-01-09
33
best: 91.6 (Xolver)
Search-o1: Agentic Search-Enhanced Large Reasoning Models arXiv:2501.05366

Knowledge Base2 results

Mathematical ReasoningonAIME24
Acc· 2025-01-09
56.7
best: 94.4 (Xolver)
SOTA
Search-o1: Agentic Search-Enhanced Large Reasoning Models arXiv:2501.05366
Mathematical ReasoningonMATH500
Acc· 2025-01-09
86.4
SOTA
Search-o1: Agentic Search-Enhanced Large Reasoning Models arXiv:2501.05366