Command

Reported on 1 benchmark across 1 task · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing1 result

Code GenerationonTurbulence
CorrSc· 2023-12-22
0.063
best: 0.848 (GPT-4)
Turbulence: Systematically and Automatically Testing Instruction-Tuned Large Language Models for Code arXiv:2312.14856