Zero-Shot Transfer Image Classification on ImageNet V2

Metric: Accuracy (Private) (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Accuracy (Private)▼	Extra Data	Paper	Date↕	Code
1	BASIC (Lion)	81.2	No	-	-	-
2	LiT-22B	80.9	No	Scaling Vision Transformers to 22 Billion Parame...	2023-02-10	Code
3	CoCa	80.7	No	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
4	BASIC	80.6	No	Combined Scaling for Zero-shot Transfer Learning	2021-11-19	-
5	LiT ViT-e	80.6	No	PaLI: A Jointly-Scaled Multilingual Language-Ima...	2022-09-14	Code
6	LiT-tuning	78.7	No	LiT: Zero-Shot Transfer with Locked-image text T...	2021-11-15	Code
7	EVA-CLIP-18B	77.9	No	EVA-CLIP-18B: Scaling CLIP to 18 Billion Paramet...	2024-02-06	Code
8	InternVL-C	77.3	No	InternVL: Scaling up Vision Foundation Models an...	2023-12-21	Code
9	EVA-CLIP-E/14+	75.7	No	EVA-CLIP: Improved Training Techniques for CLIP ...	2023-03-27	Code
10	ALIGN	70.1	No	Scaling Up Visual and Vision-Language Representa...	2021-02-11	Code
11	CLIP	70.1	No	Learning Transferable Visual Models From Natural...	2021-02-26	Code
12	AltCLIP	68.1	No	AltCLIP: Altering the Language Encoder in CLIP f...	2022-11-12	Code
13	PaLI	64.46	No	PaLI: A Jointly-Scaled Multilingual Language-Ima...	2022-09-14	Code

#1BASIC (Lion)
81.2
Accuracy (Private)
No paper
#2LiT-22BSOTA
80.9
Accuracy (Private)· 2023-02-10
Scaling Vision Transformers to 22 Billion Parameters Code
#3CoCaSOTA
80.7
Accuracy (Private)· 2022-05-04
CoCa: Contrastive Captioners are Image-Text Foundation Models Code
#4BASICSOTA
80.6
Accuracy (Private)· 2021-11-19
Combined Scaling for Zero-shot Transfer Learning
#5LiT ViT-e
80.6
Accuracy (Private)· 2022-09-14
PaLI: A Jointly-Scaled Multilingual Language-Image Model Code
#6LiT-tuningSOTA
78.7
Accuracy (Private)· 2021-11-15
LiT: Zero-Shot Transfer with Locked-image text Tuning Code
#7EVA-CLIP-18B
77.9
Accuracy (Private)· 2024-02-06
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters Code
#8InternVL-C
77.3
Accuracy (Private)· 2023-12-21
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Code
#9EVA-CLIP-E/14+
75.7
Accuracy (Private)· 2023-03-27
EVA-CLIP: Improved Training Techniques for CLIP at Scale Code
#10ALIGNSOTA
70.1
Accuracy (Private)· 2021-02-11
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Code
#11CLIP
70.1
Accuracy (Private)· 2021-02-26
Learning Transferable Visual Models From Natural Language Supervision Code
#12AltCLIP
68.1
Accuracy (Private)· 2022-11-12
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities Code
#13PaLI
64.46
Accuracy (Private)· 2022-09-14
PaLI: A Jointly-Scaled Multilingual Language-Image Model Code