Question Answering on MultiRC

Metric: F1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	F1▼	Extra Data	Paper	Date↕	Code
1	PaLM 540B (finetuned)	90.1	No	PaLM: Scaling Language Modeling with Pathways	2022-04-05	Code
2	ST-MoE-32B 269B (fine-tuned)	89.6	No	ST-MoE: Designing Stable and Transferable Sparse...	2022-02-17	Code
3	Turing NLR v5 XXL 5.4B (fine-tuned)	88.4	No	Toward Efficient Language Model Pretraining and ...	2022-12-04	-
4	DeBERTa-1.5B	88.2	No	DeBERTa: Decoding-enhanced BERT with Disentangle...	2020-06-05	Code
5	Vega v2 6B (fine-tuned)	88.2	No	Toward Efficient Language Model Pretraining and ...	2022-12-04	-
6	PaLM 2-L (one-shot)	88.2	No	PaLM 2 Technical Report	2023-05-17	Code
7	T5-XXL 11B (fine-tuned)	88.1	No	Exploring the Limits of Transfer Learning with a...	2019-10-23	Code
8	ST-MoE-L 4.1B (fine-tuned)	86	No	ST-MoE: Designing Stable and Transferable Sparse...	2022-02-17	Code
9	PaLM 2-M (one-shot)	84.1	No	PaLM 2 Technical Report	2023-05-17	Code
10	PaLM 2-S (one-shot)	84	No	PaLM 2 Technical Report	2023-05-17	Code
11	FLAN 137B (prompt-tuned)	83.4	No	Finetuned Language Models Are Zero-Shot Learners	2021-09-03	Code
12	FLAN 137B (zero-shot)	77.5	No	Finetuned Language Models Are Zero-Shot Learners	2021-09-03	Code
13	GPT-3 175B (Few-Shot)	75.4	No	Language Models are Few-Shot Learners	2020-05-28	Code
14	FLAN 137B (1-shot)	72.1	No	Finetuned Language Models Are Zero-Shot Learners	2021-09-03	Code
15	KELM (finetuning BERT-large based single model)	70.8	No	KELM: Knowledge Enhanced Pre-Trained Language Re...	2021-09-09	Code
16	BERT-large(single model)	70	No	BERT: Pre-training of Deep Bidirectional Transfo...	2018-10-11	Code
17	Neo-6B (QA + WS)	63.8	No	Ask Me Anything: A simple strategy for prompting...	2022-10-05	Code
18	Bloomberg GPT 50B (1-shot)	62.3	No	BloombergGPT: A Large Language Model for Finance	2023-03-30	Code
19	N-Grammer 343M	62	No	N-Grammer: Augmenting Transformers with latent n...	2022-07-13	Code
20	Neo-6B (few-shot)	60.8	No	Ask Me Anything: A simple strategy for prompting...	2022-10-05	Code
21	AlexaTM 20B	59.6	No	AlexaTM 20B: Few-Shot Learning Using a Large-Sca...	2022-08-02	Code
22	Neo-6B (QA)	58.8	No	Ask Me Anything: A simple strategy for prompting...	2022-10-05	Code
23	BLOOM 176B (1-shot)	26.7	No	BloombergGPT: A Large Language Model for Finance	2023-03-30	Code
24	GPT-NeoX 20B (1-shot)	22.9	No	BloombergGPT: A Large Language Model for Finance	2023-03-30	Code
25	OPT 66B (1-shot)	18.8	No	BloombergGPT: A Large Language Model for Finance	2023-03-30	Code

#1PaLM 540B (finetuned) SOTA
90.1
F1· 2022-04-05
PaLM: Scaling Language Modeling with Pathways Code
#2ST-MoE-32B 269B (fine-tuned)SOTA
89.6
F1· 2022-02-17
ST-MoE: Designing Stable and Transferable Sparse Expert Models Code
#3Turing NLR v5 XXL 5.4B (fine-tuned)
88.4
F1· 2022-12-04
Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE
#4DeBERTa-1.5BSOTA
88.2
F1· 2020-06-05
DeBERTa: Decoding-enhanced BERT with Disentangled Attention Code
#5Vega v2 6B (fine-tuned)
88.2
F1· 2022-12-04
Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE
#6PaLM 2-L (one-shot)
88.2
F1· 2023-05-17
PaLM 2 Technical Report Code
#7T5-XXL 11B (fine-tuned)SOTA
88.1
F1· 2019-10-23
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Code
#8ST-MoE-L 4.1B (fine-tuned)
86
F1· 2022-02-17
ST-MoE: Designing Stable and Transferable Sparse Expert Models Code
#9PaLM 2-M (one-shot)
84.1
F1· 2023-05-17
PaLM 2 Technical Report Code
#10PaLM 2-S (one-shot)
84
F1· 2023-05-17
PaLM 2 Technical Report Code
#11FLAN 137B (prompt-tuned)
83.4
F1· 2021-09-03
Finetuned Language Models Are Zero-Shot Learners Code
#12FLAN 137B (zero-shot)
77.5
F1· 2021-09-03
Finetuned Language Models Are Zero-Shot Learners Code
#13GPT-3 175B (Few-Shot)
75.4
F1· 2020-05-28
Language Models are Few-Shot Learners Code
#14FLAN 137B (1-shot)
72.1
F1· 2021-09-03
Finetuned Language Models Are Zero-Shot Learners Code
#15KELM (finetuning BERT-large based single model)
70.8
F1· 2021-09-09
KELM: Knowledge Enhanced Pre-Trained Language Representations with Message Passing on Hierarchical Relational Graphs Code
#16BERT-large(single model)SOTA
70
F1· 2018-10-11
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Code
#17Neo-6B (QA + WS)
63.8
F1· 2022-10-05
Ask Me Anything: A simple strategy for prompting language models Code
#18Bloomberg GPT 50B (1-shot)
62.3
F1· 2023-03-30
BloombergGPT: A Large Language Model for Finance Code
#19N-Grammer 343M
62
F1· 2022-07-13
N-Grammer: Augmenting Transformers with latent n-grams Code
#20Neo-6B (few-shot)
60.8
F1· 2022-10-05
Ask Me Anything: A simple strategy for prompting language models Code
#21AlexaTM 20B
59.6
F1· 2022-08-02
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model Code
#22Neo-6B (QA)
58.8
F1· 2022-10-05
Ask Me Anything: A simple strategy for prompting language models Code
#23BLOOM 176B (1-shot)
26.7
F1· 2023-03-30
BloombergGPT: A Large Language Model for Finance Code
#24GPT-NeoX 20B (1-shot)
22.9
F1· 2023-03-30
BloombergGPT: A Large Language Model for Finance Code
#25OPT 66B (1-shot)
18.8
F1· 2023-03-30
BloombergGPT: A Large Language Model for Finance Code