LLaMA 65B (zero-shot)

Reported on 6 benchmarks across 3 tasks · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing6 results

Reading ComprehensiononRACE
Accuracy (High)· 2023-02-27
51.6
best: 92.6 (ALBERTxxlarge+DUMA(ensemble))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Reading ComprehensiononRACE
Accuracy (Middle)· 2023-02-27
67.9
best: 93.1 (Megatron-BERT (ensemble))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Question AnsweringonSIQA
Accuracy· 2023-02-27
52.3
best: 83.2 (Unicorn 11B (fine-tuned))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Question AnsweringonOBQA
Accuracy· 2023-02-27
60.2
best: 78.4 (FLAN 137B (zero-shot))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Question AnsweringonTriviaQA
EM· 2023-02-27
68.2
best: 87.5 (Claude 2 (few-shot, k=5))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971
Common Sense ReasoningonARC (Challenge)
Accuracy· uses extra data· 2023-02-27
56
best: 96.4 (GPT-4 (few-shot, k=25))
LLaMA: Open and Efficient Foundation Language Models arXiv:2302.13971