Thor + expert iteration on autoformalised theorems

Reported on 4 benchmarks across 2 tasks

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Miscellaneous4 results

Automated Theorem ProvingonminiF2F-test
Pass@1· uses extra data
35.2
best: 52.94 (Kimina-Prover-Preview)
Automated Theorem ProvingonminiF2F-test
cumulative· uses extra data
35.2
best: 80.74 (Kimina-Prover-Preview)
Mathematical ProofsonminiF2F-test
Pass@1· uses extra data
35.2
best: 52.94 (Kimina-Prover-Preview)
Mathematical ProofsonminiF2F-test
cumulative· uses extra data
35.2
best: 80.74 (Kimina-Prover-Preview)