Visual Question Answering (VQA) on VCR (QA-R) test

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	GPT4RoI	91	No	GPT4RoI: Instruction Tuning Large Language Model...	2023-07-07	Code
2	ERNIE-ViL-large(ensemble of 15 models)	86.1	No	ERNIE-ViL: Knowledge Enhanced Vision-Language Re...	2020-06-30	-
3	UNITER-large (ensemble of 10 models)	83.4	No	UNITER: UNiversal Image-TExt Representation Lear...	2019-09-25	Code
4	UNITER (Large)	80.8	No	UNITER: UNiversal Image-TExt Representation Lear...	2019-09-25	Code
5	KVL-BERTLARGE	78.6	No	KVL-BERT: Knowledge Enhanced Visual-and-Linguist...	2020-12-13	-
6	VL-BERTLARGE	78.4	No	VL-BERT: Pre-training of Generic Visual-Linguist...	2019-08-22	Code
7	VL-T5	77.8	No	Unifying Vision-and-Language Tasks via Text Gene...	2021-02-04	Code
8	VisualBERT	73.2	No	VisualBERT: A Simple and Performant Baseline for...	2019-08-09	Code

#1GPT4RoISOTA
91
Accuracy· 2023-07-07
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Code
#2ERNIE-ViL-large(ensemble of 15 models)SOTA
86.1
Accuracy· 2020-06-30
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
#3UNITER-large (ensemble of 10 models)SOTA
83.4
Accuracy· 2019-09-25
UNITER: UNiversal Image-TExt Representation Learning Code
#4UNITER (Large)
80.8
Accuracy· 2019-09-25
UNITER: UNiversal Image-TExt Representation Learning Code
#5KVL-BERTLARGE
78.6
Accuracy· 2020-12-13
KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual Commonsense Reasoning
#6VL-BERTLARGESOTA
78.4
Accuracy· 2019-08-22
VL-BERT: Pre-training of Generic Visual-Linguistic Representations Code
#7VL-T5
77.8
Accuracy· 2021-02-04
Unifying Vision-and-Language Tasks via Text Generation Code
#8VisualBERTSOTA
73.2
Accuracy· 2019-08-09
VisualBERT: A Simple and Performant Baseline for Vision and Language Code