Natural Language Inference on ANLI test

Metric: A1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	A1▼	Extra Data	Paper	Date↕	Code
1	T5-3B (explanation prompting)	81.8	No	-	-	-
2	T0-11B (explanation prompting)	75.6	No	-	-	-
3	InfoBERT (RoBERTa)	75	Yes	InfoBERT: Improving Robustness of Language Model...	2020-10-05	Code
4	PaLM 2-L (one-shot)	73.1	No	PaLM 2 Technical Report	2023-05-17	Code
5	RoBERTa (Large)	72.4	Yes	RoBERTa: A Robustly Optimized BERT Pretraining A...	2019-07-26	Code
6	ALUM (RoBERTa-LARGE)	72.3	Yes	Adversarial Training for Large Neural Language M...	2020-04-20	Code
7	XLNet (Large)	70.3	Yes	XLNet: Generalized Autoregressive Pretraining fo...	2019-06-19	Code
8	ChatGPT	62.3	No	A Systematic Study and Comprehensive Evaluation ...	2023-05-29	Code
9	PaLM 2-M (one-shot)	58.1	No	PaLM 2 Technical Report	2023-05-17	Code
10	PaLM 2-S (one-shot)	53.1	No	PaLM 2 Technical Report	2023-05-17	Code
11	T0-3B (CoT fine-tuned)	41.7	No	The CoT Collection: Improving Zero-shot and Few-...	2023-05-23	Code
12	Flipped-3B	39.99	No	Guess the Instruction! Flipped Learning Makes La...	2022-10-06	Code
13	GPT-3	36.8	Yes	Language Models are Few-Shot Learners	2020-05-28	Code
14	KiC-770M	36.3	No	Knowledge-in-Context: Towards Knowledgeable Semi...	2022-10-28	-
15	RoE-3B	35.49	No	Exploring the Benefits of Training Expert Langua...	2023-02-07	Code
16	BLOOM 176B (one-shot)	33.6	No	BloombergGPT: A Large Language Model for Finance	2023-03-30	Code
17	OPT 66B (one-shot)	33.1	No	BloombergGPT: A Large Language Model for Finance	2023-03-30	Code
18	Bloomberg GPT (one-shot)	32.9	No	BloombergGPT: A Large Language Model for Finance	2023-03-30	Code
19	GPT-NeoX (one-shot)	32.6	No	BloombergGPT: A Large Language Model for Finance	2023-03-30	Code

#1T5-3B (explanation prompting)
81.8
A1
No paper
#2T0-11B (explanation prompting)
75.6
A1
No paper
#3InfoBERT (RoBERTa)SOTA
75
A1· Extra Data· 2020-10-05
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective Code
#4PaLM 2-L (one-shot)
73.1
A1· 2023-05-17
PaLM 2 Technical Report Code
#5RoBERTa (Large)SOTA
72.4
A1· Extra Data· 2019-07-26
RoBERTa: A Robustly Optimized BERT Pretraining Approach Code
#6ALUM (RoBERTa-LARGE)
72.3
A1· Extra Data· 2020-04-20
Adversarial Training for Large Neural Language Models Code
#7XLNet (Large)SOTA
70.3
A1· Extra Data· 2019-06-19
XLNet: Generalized Autoregressive Pretraining for Language Understanding Code
#8ChatGPT
62.3
A1· 2023-05-29
A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets Code
#9PaLM 2-M (one-shot)
58.1
A1· 2023-05-17
PaLM 2 Technical Report Code
#10PaLM 2-S (one-shot)
53.1
A1· 2023-05-17
PaLM 2 Technical Report Code
#11T0-3B (CoT fine-tuned)
41.7
A1· 2023-05-23
The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning Code
#12Flipped-3B
39.99
A1· 2022-10-06
Guess the Instruction! Flipped Learning Makes Language Models Stronger Zero-Shot Learners Code
#13GPT-3
36.8
A1· Extra Data· 2020-05-28
Language Models are Few-Shot Learners Code
#14KiC-770M
36.3
A1· 2022-10-28
Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models
#15RoE-3B
35.49
A1· 2023-02-07
Exploring the Benefits of Training Expert Language Models over Instruction Tuning Code
#16BLOOM 176B (one-shot)
33.6
A1· 2023-03-30
BloombergGPT: A Large Language Model for Finance Code
#17OPT 66B (one-shot)
33.1
A1· 2023-03-30
BloombergGPT: A Large Language Model for Finance Code
#18Bloomberg GPT (one-shot)
32.9
A1· 2023-03-30
BloombergGPT: A Large Language Model for Finance Code
#19GPT-NeoX (one-shot)
32.6
A1· 2023-03-30
BloombergGPT: A Large Language Model for Finance Code