Zero-Shot Transfer Image Classification on ImageNet

Metric: Accuracy (Private) (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Accuracy (Private)▼	Extra Data	Paper	Date↕	Code
1	M2-Encoder	88.5	Yes	M2-Encoder: Advancing Bilingual Image-Text Under...	2024-01-29	Code
2	BASIC (Lion)	88.3	No	-	-	-
3	CoCa	86.3	Yes	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
4	LiT-22B	85.9	No	Scaling Vision Transformers to 22 Billion Parame...	2023-02-10	Code
5	BASIC	85.7	Yes	Combined Scaling for Zero-shot Transfer Learning	2021-11-19	-
6	LiT ViT-e	85.4	No	PaLI: A Jointly-Scaled Multilingual Language-Ima...	2022-09-14	Code
7	LiT-tuning	84.5	No	LiT: Zero-Shot Transfer with Locked-image text T...	2021-11-15	Code
8	IMP-MoE-L	83.9	No	Alternating Gradient Descent and Mixture-of-Expe...	2023-05-10	-
9	EVA-CLIP-18B	83.8	No	EVA-CLIP-18B: Scaling CLIP to 18 Billion Paramet...	2024-02-06	Code
10	InternVL-C	83.2	No	InternVL: Scaling up Vision Foundation Models an...	2023-12-21	Code
11	MAWS (ViT-2B)	82.1	No	The effectiveness of MAE pre-pretraining for bil...	2023-03-23	Code
12	EVA-CLIP-E/14+	82	No	EVA-CLIP: Improved Training Techniques for CLIP ...	2023-03-27	Code
13	CLIPA (ViT-H/14-336px)	81.8	No	-	-	-
14	MAWS (ViT-H)	81.1	No	The effectiveness of MAE pre-pretraining for bil...	2023-03-23	Code
15	REACT	78.5	No	Learning Customized Visual Models with Retrieval...	2023-01-17	Code
16	ALIGN	76.4	No	Scaling Up Visual and Vision-Language Representa...	2021-02-11	Code
17	CLIP（ViT-L/14-336px）	76.2	Yes	Learning Transferable Visual Models From Natural...	2021-02-26	Code
18	AltCLIP	74.5	No	AltCLIP: Altering the Language Encoder in CLIP f...	2022-11-12	Code
19	PaLI	72.11	Yes	PaLI: A Jointly-Scaled Multilingual Language-Ima...	2022-09-14	Code
20	Diffusion Classifier (zero-shot)	61.4	No	Your Diffusion Model is Secretly a Zero-Shot Cla...	2023-03-28	Code
21	CLIP (ResNet50)	59.6	Yes	Learning Transferable Visual Models From Natural...	2021-02-26	Code

#1M2-EncoderSOTA
88.5
Accuracy (Private)· Extra Data· 2024-01-29
M2-Encoder: Advancing Bilingual Image-Text Understanding by Large-scale Efficient Pretraining Code
#2BASIC (Lion)
88.3
Accuracy (Private)
No paper
#3CoCaSOTA
86.3
Accuracy (Private)· Extra Data· 2022-05-04
CoCa: Contrastive Captioners are Image-Text Foundation Models Code
#4LiT-22B
85.9
Accuracy (Private)· 2023-02-10
Scaling Vision Transformers to 22 Billion Parameters Code
#5BASICSOTA
85.7
Accuracy (Private)· Extra Data· 2021-11-19
Combined Scaling for Zero-shot Transfer Learning
#6LiT ViT-e
85.4
Accuracy (Private)· 2022-09-14
PaLI: A Jointly-Scaled Multilingual Language-Image Model Code
#7LiT-tuningSOTA
84.5
Accuracy (Private)· 2021-11-15
LiT: Zero-Shot Transfer with Locked-image text Tuning Code
#8IMP-MoE-L
83.9
Accuracy (Private)· 2023-05-10
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
#9EVA-CLIP-18B
83.8
Accuracy (Private)· 2024-02-06
EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters Code
#10InternVL-C
83.2
Accuracy (Private)· 2023-12-21
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Code
#11MAWS (ViT-2B)
82.1
Accuracy (Private)· 2023-03-23
The effectiveness of MAE pre-pretraining for billion-scale pretraining Code
#12EVA-CLIP-E/14+
82
Accuracy (Private)· 2023-03-27
EVA-CLIP: Improved Training Techniques for CLIP at Scale Code
#13CLIPA (ViT-H/14-336px)
81.8
Accuracy (Private)
No paper
#14MAWS (ViT-H)
81.1
Accuracy (Private)· 2023-03-23
The effectiveness of MAE pre-pretraining for billion-scale pretraining Code
#15REACT
78.5
Accuracy (Private)· 2023-01-17
Learning Customized Visual Models with Retrieval-Augmented Knowledge Code
#16ALIGNSOTA
76.4
Accuracy (Private)· 2021-02-11
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Code
#17CLIP（ViT-L/14-336px）
76.2
Accuracy (Private)· Extra Data· 2021-02-26
Learning Transferable Visual Models From Natural Language Supervision Code
#18AltCLIP
74.5
Accuracy (Private)· 2022-11-12
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities Code
#19PaLI
72.11
Accuracy (Private)· Extra Data· 2022-09-14
PaLI: A Jointly-Scaled Multilingual Language-Image Model Code
#20Diffusion Classifier (zero-shot)
61.4
Accuracy (Private)· 2023-03-28
Your Diffusion Model is Secretly a Zero-Shot Classifier Code
#21CLIP (ResNet50)
59.6
Accuracy (Private)· Extra Data· 2021-02-26
Learning Transferable Visual Models From Natural Language Supervision Code