LLaMA 33B (zero-shot)

Reported on 6 benchmarks across 3 tasks · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing6 results

Reading ComprehensiononRACE
Accuracy (High)· 2023-02-27
48.3
best: 92.6 (ALBERTxxlarge+DUMA(ensemble))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Reading ComprehensiononRACE
Accuracy (Middle)· 2023-02-27
64.1
best: 93.1 (Megatron-BERT (ensemble))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Question AnsweringonSIQA
Accuracy· 2023-02-27
50.4
best: 83.2 (Unicorn 11B (fine-tuned))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Question AnsweringonNatural Questions
EM· 2023-02-27
24.9
best: 64 (Atlas (full, Wiki-dec-2018 index))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Question AnsweringonOBQA
Accuracy· 2023-02-27
58.6
best: 78.4 (FLAN 137B (zero-shot))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Common Sense ReasoningonARC (Challenge)
Accuracy· 2023-02-27
57.8
best: 96.4 (GPT-4 (few-shot, k=25))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971