gpt-4-1106-preview

Reported on 4 benchmarks across 1 task · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Computer Code4 results

Code CompletiononSAFIM
API· 2024-03-07
62.58
best: 75.16 (deepseek-coder-33b-base)
Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks arXiv:2403.04814
Code CompletiononSAFIM
Algorithmic· 2024-03-07
42.11
best: 60.78 (deepseek-coder-33b-base)
Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks arXiv:2403.04814
Code CompletiononSAFIM
Average· 2024-03-07
53.28
best: 69.01 (deepseek-coder-33b-base)
Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks arXiv:2403.04814
Code CompletiononSAFIM
Control· 2024-03-07
55.15
best: 71.1 (deepseek-coder-33b-base)
Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks arXiv:2403.04814