Visual Question Answering (VQA) on VCR (Q-A) test

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	GPT4RoI	89.4	No	GPT4RoI: Instruction Tuning Large Language Model...	2023-07-07	Code
2	ERNIE-ViL-large(ensemble of 15 models)	81.6	No	ERNIE-ViL: Knowledge Enhanced Vision-Language Re...	2020-06-30	-
3	UNITER-large (10 ensemble)	79.8	No	UNITER: UNiversal Image-TExt Representation Lear...	2019-09-25	Code
4	MAD (Single Model, Formerly CLIP-TD)	79.6	No	Multimodal Adaptive Distillation for Leveraging ...	2022-04-22	-
5	UNITER (Large)	77.3	No	UNITER: UNiversal Image-TExt Representation Lear...	2019-09-25	Code
6	KVL-BERTLARGE	76.4	No	KVL-BERT: Knowledge Enhanced Visual-and-Linguist...	2020-12-13	-
7	VL-BERTLARGE	75.8	No	VL-BERT: Pre-training of Generic Visual-Linguist...	2019-08-22	Code
8	VL-T5	75.3	No	Unifying Vision-and-Language Tasks via Text Gene...	2021-02-04	Code
9	VisualBERT	71.6	No	VisualBERT: A Simple and Performant Baseline for...	2019-08-09	Code
10	OFA-X	71.2	No	Harnessing the Power of Multi-Task Pretraining f...	2022-12-08	Code
11	OFA-X-MT	62	No	Harnessing the Power of Multi-Task Pretraining f...	2022-12-08	Code

#1GPT4RoISOTA
89.4
Accuracy· 2023-07-07
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Code
#2ERNIE-ViL-large(ensemble of 15 models)SOTA
81.6
Accuracy· 2020-06-30
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
#3UNITER-large (10 ensemble)SOTA
79.8
Accuracy· 2019-09-25
UNITER: UNiversal Image-TExt Representation Learning Code
#4MAD (Single Model, Formerly CLIP-TD)
79.6
Accuracy· 2022-04-22
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks
#5UNITER (Large)
77.3
Accuracy· 2019-09-25
UNITER: UNiversal Image-TExt Representation Learning Code
#6KVL-BERTLARGE
76.4
Accuracy· 2020-12-13
KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual Commonsense Reasoning
#7VL-BERTLARGESOTA
75.8
Accuracy· 2019-08-22
VL-BERT: Pre-training of Generic Visual-Linguistic Representations Code
#8VL-T5
75.3
Accuracy· 2021-02-04
Unifying Vision-and-Language Tasks via Text Generation Code
#9VisualBERTSOTA
71.6
Accuracy· 2019-08-09
VisualBERT: A Simple and Performant Baseline for Vision and Language Code
#10OFA-X
71.2
Accuracy· 2022-12-08
Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations Code
#11OFA-X-MT
62
Accuracy· 2022-12-08
Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations Code