Visual Reasoning on NLVR2 Test

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	BEiT-3	92.58	No	Image as a Foreign Language: BEiT Pretraining fo...	2022-08-22	Code
2	X2-VLM (large)	89.4	No	X$^2$-VLM: All-In-One Pre-trained Model For Visi...	2022-11-22	Code
3	XFM (base)	88.4	No	Toward Building General Foundation Models for La...	2023-01-12	Code
4	CoCa	87	No	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
5	X2-VLM (base)	87	No	X$^2$-VLM: All-In-One Pre-trained Model For Visi...	2022-11-22	Code
6	VLMo	86.86	No	VLMo: Unified Vision-Language Pre-Training with ...	2021-11-03	Code
7	SimVLM	85.15	No	SimVLM: Simple Visual Language Model Pretraining...	2021-08-24	Code
8	X-VLM (base)	84.76	No	Multi-Grained Vision Language Pre-Training: Alig...	2021-11-16	Code
9	BLIP-129M	83.09	No	BLIP: Bootstrapping Language-Image Pre-training ...	2022-01-28	Code
10	ALBEF (14M)	82.55	No	Align before Fuse: Vision and Language Represent...	2021-07-16	Code
11	UNITER (Large)	79.5	No	UNITER: UNiversal Image-TExt Representation Lear...	2019-09-25	Code
12	SOHO	77.32	No	Seeing Out of tHe bOx: End-to-End Pre-training f...	2021-04-07	Code
13	LXMERT	76.2	No	LXMERT: Learning Cross-Modality Encoder Represen...	2019-08-20	Code
14	ViLT-B/32	76.13	No	ViLT: Vision-and-Language Transformer Without Co...	2021-02-05	Code