Video on Kinetics-700

Metric: Top-1 Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Top-1 Accuracy▼	Extra Data	Paper	Date↕	Code
1	InternVideo2-6B	85.9	Yes	InternVideo2: Scaling Foundation Models for Mult...	2024-03-22	Code
2	InternVideo2-1B	85.4	Yes	InternVideo2: Scaling Foundation Models for Mult...	2024-03-22	Code
3	InternVideo-T	84	Yes	InternVideo: General Video Foundation Models via...	2022-12-06	Code
4	TubeViT-L	83.8	No	Rethinking Video ViTs: Sparse Video Tubes for Jo...	2022-12-06	Code
5	UMT-L (ViT-L/16)	83.6	Yes	Unmasked Teacher: Towards Training-Efficient Vid...	2023-03-28	Code
6	MTV-H (WTS 60M)	83.4	Yes	Multiview Transformers for Video Recognition	2022-01-12	Code
7	UniFormerV2-L	82.7	Yes	-	-	Code
8	CoCa (finetuned)	82.7	Yes	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
9	CoCa (frozen)	81.1	Yes	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
10	Hiera-H (no extra data)	81.1	No	Hiera: A Hierarchical Vision Transformer without...	2023-06-01	Code
11	MaskFeat (no extra data, MViT-L)	80.4	No	Masked Feature Prediction for Self-Supervised Vi...	2021-12-16	Code
12	mPLUG-2	80.4	Yes	mPLUG-2: A Modularized Multi-modal Foundation Mo...	2023-02-01	Code
13	AIM (CLIP ViT-L/14, 32x224)	80.4	Yes	AIM: Adapting Image Models for Efficient Video A...	2023-02-06	Code
14	CoVeR (JFT-3B)	79.8	Yes	Co-training Transformer with Videos and Images I...	2021-12-14	-
15	MViTv2-L (ImageNet-21k pretrain)	79.4	Yes	MViTv2: Improved Multiscale Vision Transformers ...	2021-12-02	Code
16	MoViNet-A6	79.4	No	MViTv2: Improved Multiscale Vision Transformers ...	2021-12-02	Code
17	CoVeR (JFT-300M)	78.5	Yes	Co-training Transformer with Videos and Images I...	2021-12-14	-
18	MViTv2-B	76.6	No	MViTv2: Improved Multiscale Vision Transformers ...	2021-12-02	Code
19	MoViNet-A6	72.3	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
20	MoViNet-A5	71.7	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
21	En-VidTr-L	70.8	No	VidTr: Video Transformer Without Convolutions	2021-04-23	-
22	MoViNet-A4	70.7	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
23	VidTr-L	70.2	No	VidTr: Video Transformer Without Convolutions	2021-04-23	-
24	VidTr-M	69.5	No	VidTr: Video Transformer Without Convolutions	2021-04-23	-
25	MoViNet-A3	68	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
26	VidTr-S	67.3	No	VidTr: Video Transformer Without Convolutions	2021-04-23	-
27	MoViNet-A2	66.7	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
28	MoViNet-A1	63.5	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
29	MoViNet-A0	58.5	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
30	SRTG r3d-101	56.46	No	Learn to cycle: Time-consistent feature discover...	2020-06-15	Code
31	SRTG r(2+1)d-50	54.17	No	Learn to cycle: Time-consistent feature discover...	2020-06-15	Code
32	SRTG r3d-50	53.52	No	Learn to cycle: Time-consistent feature discover...	2020-06-15	Code
33	SEER (RegNet10B)	51.9	Yes	Vision Models Are More Robust And Fair When Pret...	2022-02-16	Code
34	SRTG r(2+1)d-34	49.43	No	Learn to cycle: Time-consistent feature discover...	2020-06-15	Code
35	SRTG r3d-34	49.15	No	Learn to cycle: Time-consistent feature discover...	2020-06-15	Code

#1InternVideo2-6BSOTA
85.9
Top-1 Accuracy· Extra Data· 2024-03-22
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding Code
#2InternVideo2-1B
85.4
Top-1 Accuracy· Extra Data· 2024-03-22
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding Code
#3InternVideo-TSOTA
84
Top-1 Accuracy· Extra Data· 2022-12-06
InternVideo: General Video Foundation Models via Generative and Discriminative Learning Code
#4TubeViT-L
83.8
Top-1 Accuracy· 2022-12-06
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning Code
#5UMT-L (ViT-L/16)
83.6
Top-1 Accuracy· Extra Data· 2023-03-28
Unmasked Teacher: Towards Training-Efficient Video Foundation Models Code
#6MTV-H (WTS 60M)SOTA
83.4
Top-1 Accuracy· Extra Data· 2022-01-12
Multiview Transformers for Video Recognition Code
#7UniFormerV2-L
82.7
Top-1 Accuracy· Extra Data
No paperCode
#8CoCa (finetuned)
82.7
Top-1 Accuracy· Extra Data· 2022-05-04
CoCa: Contrastive Captioners are Image-Text Foundation Models Code
#9CoCa (frozen)
81.1
Top-1 Accuracy· Extra Data· 2022-05-04
CoCa: Contrastive Captioners are Image-Text Foundation Models Code
#10Hiera-H (no extra data)
81.1
Top-1 Accuracy· 2023-06-01
Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles Code
#11MaskFeat (no extra data, MViT-L)SOTA
80.4
Top-1 Accuracy· 2021-12-16
Masked Feature Prediction for Self-Supervised Visual Pre-Training Code
#12mPLUG-2
80.4
Top-1 Accuracy· Extra Data· 2023-02-01
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video Code
#13AIM (CLIP ViT-L/14, 32x224)
80.4
Top-1 Accuracy· Extra Data· 2023-02-06
AIM: Adapting Image Models for Efficient Video Action Recognition Code
#14CoVeR (JFT-3B)SOTA
79.8
Top-1 Accuracy· Extra Data· 2021-12-14
Co-training Transformer with Videos and Images Improves Action Recognition
#15MViTv2-L (ImageNet-21k pretrain)SOTA
79.4
Top-1 Accuracy· Extra Data· 2021-12-02
MViTv2: Improved Multiscale Vision Transformers for Classification and Detection Code
#16MoViNet-A6
79.4
Top-1 Accuracy· 2021-12-02
MViTv2: Improved Multiscale Vision Transformers for Classification and Detection Code
#17CoVeR (JFT-300M)
78.5
Top-1 Accuracy· Extra Data· 2021-12-14
Co-training Transformer with Videos and Images Improves Action Recognition
#18MViTv2-B
76.6
Top-1 Accuracy· 2021-12-02
MViTv2: Improved Multiscale Vision Transformers for Classification and Detection Code
#19MoViNet-A6SOTA
72.3
Top-1 Accuracy· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#20MoViNet-A5
71.7
Top-1 Accuracy· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#21En-VidTr-L
70.8
Top-1 Accuracy· 2021-04-23
VidTr: Video Transformer Without Convolutions
#22MoViNet-A4
70.7
Top-1 Accuracy· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#23VidTr-L
70.2
Top-1 Accuracy· 2021-04-23
VidTr: Video Transformer Without Convolutions
#24VidTr-M
69.5
Top-1 Accuracy· 2021-04-23
VidTr: Video Transformer Without Convolutions
#25MoViNet-A3
68
Top-1 Accuracy· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#26VidTr-S
67.3
Top-1 Accuracy· 2021-04-23
VidTr: Video Transformer Without Convolutions
#27MoViNet-A2
66.7
Top-1 Accuracy· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#28MoViNet-A1
63.5
Top-1 Accuracy· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#29MoViNet-A0
58.5
Top-1 Accuracy· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#30SRTG r3d-101SOTA
56.46
Top-1 Accuracy· 2020-06-15
Learn to cycle: Time-consistent feature discovery for action recognition Code
#31SRTG r(2+1)d-50
54.17
Top-1 Accuracy· 2020-06-15
Learn to cycle: Time-consistent feature discovery for action recognition Code
#32SRTG r3d-50
53.52
Top-1 Accuracy· 2020-06-15
Learn to cycle: Time-consistent feature discovery for action recognition Code
#33SEER (RegNet10B)
51.9
Top-1 Accuracy· Extra Data· 2022-02-16
Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision Code
#34SRTG r(2+1)d-34
49.43
Top-1 Accuracy· 2020-06-15
Learn to cycle: Time-consistent feature discovery for action recognition Code
#35SRTG r3d-34
49.15
Top-1 Accuracy· 2020-06-15
Learn to cycle: Time-consistent feature discovery for action recognition Code