Image Classification on iNaturalist 2019

Metric: Top-1 Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Top-1 Accuracy▼	Extra Data	Paper	Date↕	Code
1	Hiera-H (448px)	88.5	Yes	Hiera: A Hierarchical Vision Transformer without...	2023-06-01	Code
2	MAE (ViT-H, 448)	88.3	Yes	Masked Autoencoders Are Scalable Vision Learners	2021-11-11	Code
3	Grafit (RegnetY 8GF)	84.1	No	Grafit: Learning fine-grained image representati...	2020-11-25	-
4	MixMIM-L	83.9	No	MixMAE: Mixed and Masked Autoencoder for Efficie...	2022-05-26	Code
5	RDNet-L (224 res, IN-1K pretrained)	83.7	No	DenseNets Reloaded: Paradigm Shift Beyond ResNet...	2024-03-28	Code
6	RDNet-B (224 res, IN-1K pretrained)	83.5	No	DenseNets Reloaded: Paradigm Shift Beyond ResNet...	2024-03-28	Code
7	RDNet-S (224 res, IN-1K pretrained)	82.9	No	DenseNets Reloaded: Paradigm Shift Beyond ResNet...	2024-03-28	Code
8	Conviformer-B	82.85	No	Conviformers: Convolutionally guided Vision Tran...	2022-08-17	Code
9	CeiT-S (384 finetune resolution)	82.7	Yes	Incorporating Convolution Designs into Visual Tr...	2021-03-22	Code
10	CaiT-M-36 U 224	81.8	Yes	Going deeper with Image Transformers	2021-03-31	Code
11	RDNet-T (224 res, IN-1K pretrained)	81.2	No	DenseNets Reloaded: Paradigm Shift Beyond ResNet...	2024-03-28	Code
12	CeiT-S	78.9	Yes	Incorporating Convolution Designs into Visual Tr...	2021-03-22	Code
13	CeiT-T (384 finetune resolution)	77.9	Yes	Incorporating Convolution Designs into Visual Tr...	2021-03-22	Code
14	ResNet50 (A2)	75	No	ResNet strikes back: An improved training proced...	2021-10-01	Code
15	LeViT-384	74.3	No	LeViT: a Vision Transformer in ConvNet's Clothin...	2021-04-02	Code
16	CeiT-T	72.8	Yes	Incorporating Convolution Designs into Visual Tr...	2021-03-22	Code
17	ResMLP-24	72.5	No	ResMLP: Feedforward networks for image classific...	2021-05-07	Code
18	LeViT-256	72.3	No	LeViT: a Vision Transformer in ConvNet's Clothin...	2021-04-02	Code
19	ResMLP-12	71	No	ResMLP: Feedforward networks for image classific...	2021-05-07	Code
20	LeViT-192	70.8	No	LeViT: a Vision Transformer in ConvNet's Clothin...	2021-04-02	Code
21	LeViT-128	68.4	No	LeViT: a Vision Transformer in ConvNet's Clothin...	2021-04-02	Code
22	LeViT-128S	66.5	No	LeViT: a Vision Transformer in ConvNet's Clothin...	2021-04-02	Code

#1Hiera-H (448px)SOTA
88.5
Top-1 Accuracy· Extra Data· 2023-06-01
Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles Code
#2MAE (ViT-H, 448)SOTA
88.3
Top-1 Accuracy· Extra Data· 2021-11-11
Masked Autoencoders Are Scalable Vision Learners Code
#3Grafit (RegnetY 8GF)SOTA
84.1
Top-1 Accuracy· 2020-11-25
Grafit: Learning fine-grained image representations with coarse labels
#4MixMIM-L
83.9
Top-1 Accuracy· 2022-05-26
MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of Hierarchical Vision Transformers Code
#5RDNet-L (224 res, IN-1K pretrained)
83.7
Top-1 Accuracy· 2024-03-28
DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs Code
#6RDNet-B (224 res, IN-1K pretrained)
83.5
Top-1 Accuracy· 2024-03-28
DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs Code
#7RDNet-S (224 res, IN-1K pretrained)
82.9
Top-1 Accuracy· 2024-03-28
DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs Code
#8Conviformer-B
82.85
Top-1 Accuracy· 2022-08-17
Conviformers: Convolutionally guided Vision Transformer Code
#9CeiT-S (384 finetune resolution)
82.7
Top-1 Accuracy· Extra Data· 2021-03-22
Incorporating Convolution Designs into Visual Transformers Code
#10CaiT-M-36 U 224
81.8
Top-1 Accuracy· Extra Data· 2021-03-31
Going deeper with Image Transformers Code
#11RDNet-T (224 res, IN-1K pretrained)
81.2
Top-1 Accuracy· 2024-03-28
DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs Code
#12CeiT-S
78.9
Top-1 Accuracy· Extra Data· 2021-03-22
Incorporating Convolution Designs into Visual Transformers Code
#13CeiT-T (384 finetune resolution)
77.9
Top-1 Accuracy· Extra Data· 2021-03-22
Incorporating Convolution Designs into Visual Transformers Code
#14ResNet50 (A2)
75
Top-1 Accuracy· 2021-10-01
ResNet strikes back: An improved training procedure in timm Code
#15LeViT-384
74.3
Top-1 Accuracy· 2021-04-02
LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference Code
#16CeiT-T
72.8
Top-1 Accuracy· Extra Data· 2021-03-22
Incorporating Convolution Designs into Visual Transformers Code
#17ResMLP-24
72.5
Top-1 Accuracy· 2021-05-07
ResMLP: Feedforward networks for image classification with data-efficient training Code
#18LeViT-256
72.3
Top-1 Accuracy· 2021-04-02
LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference Code
#19ResMLP-12
71
Top-1 Accuracy· 2021-05-07
ResMLP: Feedforward networks for image classification with data-efficient training Code
#20LeViT-192
70.8
Top-1 Accuracy· 2021-04-02
LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference Code
#21LeViT-128
68.4
Top-1 Accuracy· 2021-04-02
LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference Code
#22LeViT-128S
66.5
Top-1 Accuracy· 2021-04-02
LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference Code