Multimodal Text and Image Classification on VALSE plurality

Metric: pairwise accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	pairwise accuracy▼	Extra Data	Paper	Date↕	Code
1	ViLBERT 12-in-1	72.4	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
2	LXMERT	64.4	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
3	ViLBERT	61.2	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
4	CLIP	56.2	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
5	GPT1	53.1	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
6	GPT2	51.9	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
7	VisualBERT	45.7	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code

#1ViLBERT 12-in-1SOTA
72.4
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#2LXMERT
64.4
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#3ViLBERT
61.2
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#4CLIP
56.2
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#5GPT1
53.1
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#6GPT2
51.9
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#7VisualBERT
45.7
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code