GPT-3.5 Turbo (ChatGPT) + AgentCoder

Reported on 1 benchmark across 1 task · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing1 result

Code GenerationonMBPP
Accuracy· 2023-12-20
89.9
best: 96.6 (EG-CFG (DeepSeek-V3-0324))
AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation arXiv:2312.13010