Multimodal Text and Image Classification on VALSE spatial relations

Metric: Accuracy (%) (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy (%)▼	Extra Data	Paper	Date↕	Code
1	ViLBERT 12-in-1	53.4	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
2	LXMERT	50.8	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
3	ViLBERT	49.9	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
4	VisualBERT	49.3	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code

#1ViLBERT 12-in-1SOTA
53.4
Accuracy (%)· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#2LXMERT
50.8
Accuracy (%)· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#3ViLBERT
49.9
Accuracy (%)· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#4VisualBERT
49.3
Accuracy (%)· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code