GPT-4 (5-shot)

Reported on 13 benchmarks across 3 tasks · 1 paper · 2 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Methodology12 results

ClusteringonOCW
# Solved Walls· uses extra data· 2023-03-15
7
best: 285 (Human Performance)
SOTA
GPT-4 Technical Report arXiv:2303.08774
Constrained ClusteringonOCW
# Solved Walls· uses extra data· 2023-03-15
7
best: 285 (Human Performance)
SOTA
GPT-4 Technical Report arXiv:2303.08774
ClusteringonOCW
Wasserstein Distance (WD)· uses extra data· 2023-03-15
72.9
best: 82.5 (GPT-3.5-turbo (0-shot))
GPT-4 Technical Report arXiv:2303.08774
ClusteringonOCW
# Correct Groups· uses extra data· 2023-03-15
269
best: 1405 (Human Performance)
GPT-4 Technical Report arXiv:2303.08774
ClusteringonOCW
Adjusted Mutual Information (AMI)· uses extra data· 2023-03-15
32.8
best: 33.6 (GPT-4 (3-shot))
GPT-4 Technical Report arXiv:2303.08774
ClusteringonOCW
Adjusted Rand Index (ARI)· uses extra data· 2023-03-15
29.1
best: 29.9 (GPT-4 (3-shot))
GPT-4 Technical Report arXiv:2303.08774
ClusteringonOCW
Fowlkes Mallows Score (FMS)· uses extra data· 2023-03-15
43.4
best: 43.9 (GPT-4 (3-shot))
GPT-4 Technical Report arXiv:2303.08774
Constrained ClusteringonOCW
Wasserstein Distance (WD)· uses extra data· 2023-03-15
72.9
best: 82.5 (GPT-3.5-turbo (0-shot))
GPT-4 Technical Report arXiv:2303.08774
Constrained ClusteringonOCW
# Correct Groups· uses extra data· 2023-03-15
269
best: 1405 (Human Performance)
GPT-4 Technical Report arXiv:2303.08774
Constrained ClusteringonOCW
Adjusted Mutual Information (AMI)· uses extra data· 2023-03-15
32.8
best: 33.6 (GPT-4 (3-shot))
GPT-4 Technical Report arXiv:2303.08774
Constrained ClusteringonOCW
Adjusted Rand Index (ARI)· uses extra data· 2023-03-15
29.1
best: 29.9 (GPT-4 (3-shot))
GPT-4 Technical Report arXiv:2303.08774
Constrained ClusteringonOCW
Fowlkes Mallows Score (FMS)· uses extra data· 2023-03-15
43.4
best: 43.9 (GPT-4 (3-shot))
GPT-4 Technical Report arXiv:2303.08774

Natural Language Processing1 result

Common Sense ReasoningonWinoGrande
Accuracy· 2023-03-15
87.5
best: 96.1 (ST-MoE-32B 269B (fine-tuned))
GPT-4 Technical Report arXiv:2303.08774