Visual Reasoning on NLVR2 Dev

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	BEiT-3	91.51	No	Image as a Foreign Language: BEiT Pretraining fo...	2022-08-22	Code
2	X2-VLM (large)	88.7	No	X$^2$-VLM: All-In-One Pre-trained Model For Visi...	2022-11-22	Code
3	XFM (base)	87.6	No	Toward Building General Foundation Models for La...	2023-01-12	Code
4	X2-VLM (base)	86.2	No	X$^2$-VLM: All-In-One Pre-trained Model For Visi...	2022-11-22	Code
5	CoCa	86.1	No	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
6	VLMo	85.64	No	VLMo: Unified Vision-Language Pre-Training with ...	2021-11-03	Code
7	VK-OOD	84.6	No	-	-	Code
8	SimVLM	84.53	No	SimVLM: Simple Visual Language Model Pretraining...	2021-08-24	Code
9	X-VLM (base)	84.41	No	Multi-Grained Vision Language Pre-Training: Alig...	2021-11-16	Code
10	VK-OOD	83.9	No	Differentiable Outlier Detection Enable Robust D...	2023-02-11	Code
11	ALBEF (14M)	83.14	No	Align before Fuse: Vision and Language Represent...	2021-07-16	Code
12	SOHO	76.37	No	Seeing Out of tHe bOx: End-to-End Pre-training f...	2021-04-07	Code
13	ViLT-B/32	75.7	No	ViLT: Vision-and-Language Transformer Without Co...	2021-02-05	Code
14	LXMERT (Pre-train + scratch)	74.9	No	LXMERT: Learning Cross-Modality Encoder Represen...	2019-08-20	Code
15	VisualBERT	66.7	No	VisualBERT: A Simple and Performant Baseline for...	2019-08-09	Code

#1BEiT-3SOTA
91.51
Accuracy· 2022-08-22
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks Code
#2X2-VLM (large)
88.7
Accuracy· 2022-11-22
X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code
#3XFM (base)
87.6
Accuracy· 2023-01-12
Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks Code
#4X2-VLM (base)
86.2
Accuracy· 2022-11-22
X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code
#5CoCaSOTA
86.1
Accuracy· 2022-05-04
CoCa: Contrastive Captioners are Image-Text Foundation Models Code
#6VLMoSOTA
85.64
Accuracy· 2021-11-03
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts Code
#7VK-OOD
84.6
Accuracy
No paperCode
#8SimVLMSOTA
84.53
Accuracy· 2021-08-24
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Code
#9X-VLM (base)
84.41
Accuracy· 2021-11-16
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts Code
#10VK-OOD
83.9
Accuracy· 2023-02-11
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis Code
#11ALBEF (14M)SOTA
83.14
Accuracy· 2021-07-16
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Code
#12SOHOSOTA
76.37
Accuracy· 2021-04-07
Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning Code
#13ViLT-B/32SOTA
75.7
Accuracy· 2021-02-05
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision Code
#14LXMERT (Pre-train + scratch)SOTA
74.9
Accuracy· 2019-08-20
LXMERT: Learning Cross-Modality Encoder Representations from Transformers Code
#15VisualBERTSOTA
66.7
Accuracy· 2019-08-09
VisualBERT: A Simple and Performant Baseline for Vision and Language Code