Multimodal Text and Image Classification on VALSE counting adversarial

Metric: pairwise accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	pairwise accuracy▼	Extra Data	Paper	Date↕	Code
1	ViLBERT 12-in-1	77.3	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
2	ViLBERT	73.7	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
3	GPT1	69.5	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
4	CLIP	57.5	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
5	VisualBERT	50	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
6	GPT2	45.3	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
7	LXMERT	42.6	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code

#1ViLBERT 12-in-1SOTA
77.3
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#2ViLBERT
73.7
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#3GPT1
69.5
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#4CLIP
57.5
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#5VisualBERT
50
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#6GPT2
45.3
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#7LXMERT
42.6
pairwise accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code