Multimodal Text and Image Classification on VALSE counting balanced

Metric: pairwise accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	pairwise accuracy▼	Extra Data	Paper	Date↕	Code
1	ViLBERT 12-in-1	76.7	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
2	LXMERT	62.2	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
3	CLIP	62.1	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
4	ViLBERT	58.6	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
5	GPT2	51.6	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
6	GPT1	51.2	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
7	VisualBERT	48.2	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code

#1ViLBERT 12-in-1SOTA
76.7
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#2LXMERT
62.2
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#3CLIP
62.1
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#4ViLBERT
58.6
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#5GPT2
51.6
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#6GPT1
51.2
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#7VisualBERT
48.2
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code