Visual Grounding on RefCOCO+ val

Metric: Accuracy (%) (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	Accuracy (%)▼	Extra Data	Paper	Date↕	Code
1	Florence-2-large-ft	93.4	Yes	Florence-2: Advancing a Unified Representation f...	2023-11-10	Code
2	mPLUG-2	90.33	No	mPLUG-2: A Modularized Multi-modal Foundation Mo...	2023-02-01	Code
3	X2-VLM (large)	87.6	No	X$^2$-VLM: All-In-One Pre-trained Model For Visi...	2022-11-22	Code
4	XFM (base)	86.1	No	Toward Building General Foundation Models for La...	2023-01-12	Code
5	X2-VLM (base)	85.2	No	X$^2$-VLM: All-In-One Pre-trained Model For Visi...	2022-11-22	Code
6	X-VLM (base)	84.51	No	Multi-Grained Vision Language Pre-Training: Alig...	2021-11-16	Code

#1Florence-2-large-ftSOTA
93.4
Accuracy (%)· Extra Data· 2023-11-10
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks Code
#2mPLUG-2SOTA
90.33
Accuracy (%)· 2023-02-01
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video Code
#3X2-VLM (large)SOTA
87.6
Accuracy (%)· 2022-11-22
X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code
#4XFM (base)
86.1
Accuracy (%)· 2023-01-12
Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks Code
#5X2-VLM (base)
85.2
Accuracy (%)· 2022-11-22
X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code
#6X-VLM (base)SOTA
84.51
Accuracy (%)· 2021-11-16
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts Code