Image Classification on iNaturalist

Metric: Top 1 Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	Top 1 Accuracy▼	Extra Data	Paper	Date↕	Code
1	AIMv2-3B (448 res)	85.9	No	Multimodal Autoregressive Pre-training of Large ...	2024-11-21	Code
2	Hiera-H (448px)	83.8	Yes	Hiera: A Hierarchical Vision Transformer without...	2023-06-01	Code
3	MAE (ViT-H, 448)	83.4	Yes	Masked Autoencoders Are Scalable Vision Learners	2021-11-11	Code
4	AIMv2-3B	81.5	No	Multimodal Autoregressive Pre-training of Large ...	2024-11-21	Code
5	ViT-NeT (SwinV2-B)	81.2	No	-	-	Code
6	AIMv2-1B	79.7	No	Multimodal Autoregressive Pre-training of Large ...	2024-11-21	Code
7	AIMv2-H	77.9	No	Multimodal Autoregressive Pre-training of Large ...	2024-11-21	Code
8	AIMv2-L	76	No	Multimodal Autoregressive Pre-training of Large ...	2024-11-21	Code
9	FixSENet-154	75.4	Yes	Fixing the train-test resolution discrepancy	2019-06-14	Code
10	SEB+EfficientNet-B5	72.3	No	On the Eigenvalues of Global Covariance Pooling ...	2022-05-26	Code
11	TransFG	71.7	No	TransFG: A Transformer Architecture for Fine-gra...	2021-03-14	Code
12	TASN	68.2	No	Looking for the Devil in the Details: Learning T...	2019-03-14	Code

#1AIMv2-3B (448 res)SOTA
85.9
Top 1 Accuracy· 2024-11-21
Multimodal Autoregressive Pre-training of Large Vision Encoders Code
#2Hiera-H (448px)SOTA
83.8
Top 1 Accuracy· Extra Data· 2023-06-01
Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles Code
#3MAE (ViT-H, 448)SOTA
83.4
Top 1 Accuracy· Extra Data· 2021-11-11
Masked Autoencoders Are Scalable Vision Learners Code
#4AIMv2-3B
81.5
Top 1 Accuracy· 2024-11-21
Multimodal Autoregressive Pre-training of Large Vision Encoders Code
#5ViT-NeT (SwinV2-B)
81.2
Top 1 Accuracy
No paperCode
#6AIMv2-1B
79.7
Top 1 Accuracy· 2024-11-21
Multimodal Autoregressive Pre-training of Large Vision Encoders Code
#7AIMv2-H
77.9
Top 1 Accuracy· 2024-11-21
Multimodal Autoregressive Pre-training of Large Vision Encoders Code
#8AIMv2-L
76
Top 1 Accuracy· 2024-11-21
Multimodal Autoregressive Pre-training of Large Vision Encoders Code
#9FixSENet-154SOTA
75.4
Top 1 Accuracy· Extra Data· 2019-06-14
Fixing the train-test resolution discrepancy Code
#10SEB+EfficientNet-B5
72.3
Top 1 Accuracy· 2022-05-26
On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual Recognition Code
#11TransFG
71.7
Top 1 Accuracy· 2021-03-14
TransFG: A Transformer Architecture for Fine-grained Recognition Code
#12TASNSOTA
68.2
Top 1 Accuracy· 2019-03-14
Looking for the Devil in the Details: Learning Trilinear Attention Sampling Network for Fine-grained Image Recognition Code