Multimodal Text and Image Classification on VALSE

Metric: Average Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Average Accuracy▼	Extra Data	Paper	Date↕	Code
1	ViLBERT 12-in-1	63.2	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
2	LXMERT	53.5	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
3	ViLBERT	51.3	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code
4	VisualBERT	48.8	No	VALSE: A Task-Independent Benchmark for Vision a...	2021-12-14	Code

#1ViLBERT 12-in-1SOTA
63.2
Average Accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#2LXMERT
53.5
Average Accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#3ViLBERT
51.3
Average Accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code
#4VisualBERT
48.8
Average Accuracy· 2021-12-14
VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena Code