Zero-Shot Transfer Image Classification on ImageNet-A

Metric: Accuracy (Private) (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy (Private)▼	Extra Data	Paper	Date↕	Code
1	CoCa	90.2	No	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
2	LiT-22B	90.1	No	Scaling Vision Transformers to 22 Billion Parame...	2023-02-10	Code
3	LiT ViT-e	88	No	PaLI: A Jointly-Scaled Multilingual Language-Ima...	2022-09-14	Code
4	EVA-CLIP-18B	87.3	No	EVA-CLIP-18B: Scaling CLIP to 18 Billion Paramet...	2024-02-06	Code
5	BASIC (Lion)	86.4	No	-	-	-
6	BASIC	85.6	No	Combined Scaling for Zero-shot Transfer Learning	2021-11-19	-
7	InternVL-C	83.8	No	InternVL: Scaling up Vision Foundation Models an...	2023-12-21	Code
8	EVA-CLIP-E/14+	82.1	No	EVA-CLIP: Improved Training Techniques for CLIP ...	2023-03-27	Code
9	LiT-tuning	79.4	No	LiT: Zero-Shot Transfer with Locked-image text T...	2021-11-15	Code
10	CLIP	77.2	No	Learning Transferable Visual Models From Natural...	2021-02-26	Code
11	ALIGN	75.8	No	Scaling Up Visual and Vision-Language Representa...	2021-02-11	Code
12	AltCLIP	69.5	No	AltCLIP: Altering the Language Encoder in CLIP f...	2022-11-12	Code
13	PaLI	44.7	No	PaLI: A Jointly-Scaled Multilingual Language-Ima...	2022-09-14	Code

#1CoCaSOTA
90.2
Accuracy (Private)· 2022-05-04
CoCa: Contrastive Captioners are Image-Text Foundation Models Code
#2LiT-22B
90.1
Accuracy (Private)· 2023-02-10
Scaling Vision Transformers to 22 Billion Parameters Code
#3LiT ViT-e
88
Accuracy (Private)· 2022-09-14
PaLI: A Jointly-Scaled Multilingual Language-Image Model Code
#4EVA-CLIP-18B
87.3
Accuracy (Private)· 2024-02-06
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters Code
#5BASIC (Lion)
86.4
Accuracy (Private)
No paper
#6BASICSOTA
85.6
Accuracy (Private)· 2021-11-19
Combined Scaling for Zero-shot Transfer Learning
#7InternVL-C
83.8
Accuracy (Private)· 2023-12-21
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Code
#8EVA-CLIP-E/14+
82.1
Accuracy (Private)· 2023-03-27
EVA-CLIP: Improved Training Techniques for CLIP at Scale Code
#9LiT-tuningSOTA
79.4
Accuracy (Private)· 2021-11-15
LiT: Zero-Shot Transfer with Locked-image text Tuning Code
#10CLIPSOTA
77.2
Accuracy (Private)· 2021-02-26
Learning Transferable Visual Models From Natural Language Supervision Code
#11ALIGNSOTA
75.8
Accuracy (Private)· 2021-02-11
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Code
#12AltCLIP
69.5
Accuracy (Private)· 2022-11-12
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities Code
#13PaLI
44.7
Accuracy (Private)· 2022-09-14
PaLI: A Jointly-Scaled Multilingual Language-Image Model Code