GPT-3.5 Turbo

Reported on 6 benchmarks across 5 tasks · 4 papers

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing4 results

Semantic ParsingonMMSQL
TDEX· 2024-12-21
64.1
best: 67 (GPT-4 Turbo)
Evaluating and Enhancing LLMs for Multi-turn Text-to-SQL with Multiple Question Types arXiv:2412.17867
Text-To-SQLonMMSQL
TDEX· 2024-12-21
64.1
best: 67 (GPT-4 Turbo)
Evaluating and Enhancing LLMs for Multi-turn Text-to-SQL with Multiple Question Types arXiv:2412.17867
Code GenerationonPECC
Pass@3· 2024-04-29
23.75
best: 27.67 (Claude 3 Haiku)
PECC: Problem Extraction and Coding Challenges arXiv:2404.18766
Code GenerationonMBPP
Accuracy· uses extra data· 2023-08-24
52.2
best: 96.6 (EG-CFG (DeepSeek-V3-0324))
Code Llama: Open Foundation Models for Code arXiv:2308.12950

Methodology2 results

Transfer LearningonMML
Average (%)· uses extra data· 2023-03-15
70
best: 87 (GPT-4 o1(300b))
GPT-4 Technical Report arXiv:2303.08774
Multi-Task LearningonMML
Average (%)· uses extra data· 2023-03-15
70
best: 87 (GPT-4 o1(300b))
GPT-4 Technical Report arXiv:2303.08774