Visual Question Answering (VQA) on VQA v2 test-std

Metric: number (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	number▼	Extra Data	Paper	Date↕	Code
1	ONE-PEACE	72.24	No	ONE-PEACE: Exploring One General Representation ...	2023-05-18	Code
2	OFA	71.44	No	OFA: Unifying Architectures, Tasks, and Modaliti...	2022-02-07	Code
3	mPLUG-Huge	69.82	No	mPLUG: Effective and Efficient Vision-Language L...	2022-05-24	Code
4	VLMo	67.26	No	VLMo: Unified Vision-Language Pre-Training with ...	2021-11-03	Code
5	MSR + MS Cog. Svcs., X10 models	62.55	No	VinVL: Revisiting Visual Representations in Visi...	2021-01-02	Code
6	MSR + MS Cog. Svcs.	61.5	No	VinVL: Revisiting Visual Representations in Visi...	2021-01-02	Code
7	Prismer	61.39	No	Prismer: A Vision-Language Model with Multi-Task...	2023-03-04	Code
8	BGN, ensemble	61.13	No	Bilinear Graph Networks for Visual Question Answ...	2019-07-23	-
9	Single, w/o VLP	58.62	No	Deep Multimodal Neural Architecture Search	2020-04-25	Code
10	Single, w/o VLP	58.01	No	In Defense of Grid Features for Visual Question ...	2020-01-10	Code
11	ERNIE-ViL-single model	56.79	No	ERNIE-ViL: Knowledge Enhanced Vision-Language Re...	2020-06-30	-

#1ONE-PEACESOTA
72.24
number· 2023-05-18
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities Code
#2OFASOTA
71.44
number· 2022-02-07
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework Code
#3mPLUG-Huge
69.82
number· 2022-05-24
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections Code
#4VLMoSOTA
67.26
number· 2021-11-03
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts Code
#5MSR + MS Cog. Svcs., X10 modelsSOTA
62.55
number· 2021-01-02
VinVL: Revisiting Visual Representations in Vision-Language Models Code
#6MSR + MS Cog. Svcs.
61.5
number· 2021-01-02
VinVL: Revisiting Visual Representations in Vision-Language Models Code
#7Prismer
61.39
number· 2023-03-04
Prismer: A Vision-Language Model with Multi-Task Experts Code
#8BGN, ensembleSOTA
61.13
number· 2019-07-23
Bilinear Graph Networks for Visual Question Answering
#9Single, w/o VLP
58.62
number· 2020-04-25
Deep Multimodal Neural Architecture Search Code
#10Single, w/o VLP
58.01
number· 2020-01-10
In Defense of Grid Features for Visual Question Answering Code
#11ERNIE-ViL-single model
56.79
number· 2020-06-30
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph