LLaMA 13B (zero-shot)

Reported on 6 benchmarks across 3 tasks · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing6 results

Reading ComprehensiononRACE
Accuracy (High)· 2023-02-27
47.2
best: 92.6 (ALBERTxxlarge+DUMA(ensemble))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Reading ComprehensiononRACE
Accuracy (Middle)· 2023-02-27
61.6
best: 93.1 (Megatron-BERT (ensemble))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Question AnsweringonSIQA
Accuracy· 2023-02-27
50.4
best: 83.2 (Unicorn 11B (fine-tuned))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Question AnsweringonOBQA
Accuracy· 2023-02-27
56.4
best: 78.4 (FLAN 137B (zero-shot))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Question AnsweringonBoolQ
Accuracy· 2023-02-27
78.1
best: 99.87 (Mistral-Nemo 12B (HPT))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Common Sense ReasoningonARC (Challenge)
Accuracy· 2023-02-27
52.7
best: 96.4 (GPT-4 (few-shot, k=25))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971