Natural Language Inference on SNLI-VE test

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	OFA	91.2	No	OFA: Unifying Architectures, Tasks, and Modaliti...	2022-02-07	Code
2	Prompt Tuning	90.12	No	Prompt Tuning for Generative Multimodal Pretrain...	2022-08-04	Code
3	CoCa	87.1	No	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
4	SimVLM	86.32	No	SimVLM: Simple Visual Language Model Pretraining...	2021-08-24	Code
5	SOHO	84.95	No	Seeing Out of tHe bOx: End-to-End Pre-training f...	2021-04-07	Code
6	MAD (Single Model, Formerly CLIP-TD)	80.32	No	Multimodal Adaptive Distillation for Leveraging ...	2022-04-22	-
7	UNITER (Large)	78.98	No	UNITER: UNiversal Image-TExt Representation Lear...	2019-09-25	Code
8	EVE-ROI*	70.47	No	Visual Entailment: A Novel Task for Fine-Grained...	2019-01-20	Code

#1OFASOTA
91.2
Accuracy· 2022-02-07
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework Code
#2Prompt Tuning
90.12
Accuracy· 2022-08-04
Prompt Tuning for Generative Multimodal Pretrained Models Code
#3CoCa
87.1
Accuracy· 2022-05-04
CoCa: Contrastive Captioners are Image-Text Foundation Models Code
#4SimVLMSOTA
86.32
Accuracy· 2021-08-24
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Code
#5SOHOSOTA
84.95
Accuracy· 2021-04-07
Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning Code
#6MAD (Single Model, Formerly CLIP-TD)
80.32
Accuracy· 2022-04-22
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks
#7UNITER (Large)SOTA
78.98
Accuracy· 2019-09-25
UNITER: UNiversal Image-TExt Representation Learning Code
#8EVE-ROI*SOTA
70.47
Accuracy· 2019-01-20
Visual Entailment: A Novel Task for Fine-Grained Image Understanding Code