Multimodal Text and Image Classification on VALSE spatial relations

Metric: pairwise accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	pairwise accuracy▼	Extra Data	Paper	Date↕	Code
1	GPT1	77.2	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
2	GPT2	75	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
3	ViLBERT 12-in-1	67.7	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
4	CLIP	64.3	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
5	LXMERT	60.2	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
6	ViLBERT	57.2	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
7	VisualBERT	39.7	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code

#1GPT1SOTA
77.2
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#2GPT2
75
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#3ViLBERT 12-in-1
67.7
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#4CLIP
64.3
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#5LXMERT
60.2
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#6ViLBERT
57.2
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#7VisualBERT
39.7
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code