Activity Recognition on EPIC-KITCHENS-100

Metric: Noun@1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Noun@1▼	Extra Data	Paper	Date↕	Code
1	LLaVAction	69	Yes	LLaVAction: evaluating and training multi-modal ...	2025-03-24	Code
2	TIM	66.4	Yes	TIM: A Time Interval Machine for Audio-Visual Ac...	2024-04-08	Code
3	M&M (WTS 60M)	66.3	Yes	M&M Mix: A Multimodal Multiview Transformer Ense...	2022-06-20	-
4	Avion (ViT-L)	65.4	Yes	Training a Large Video Model on a Single Machine...	2023-09-28	Code
5	TAdaFormer-L/14	64.1	Yes	Temporally-Adaptive Models for Efficient Video U...	2023-08-10	Code
6	MTV-B (WTS 60M)	63.9	Yes	Multiview Transformers for Video Recognition	2022-01-12	Code
7	LaViLa (TimeSformer-L)	62.9	Yes	Learning Video Representations from Large Langua...	2022-12-08	Code
8	LVMAE	61.8	Yes	Extending Video Masked Autoencoders to 128 frames	2024-11-20	-
9	OMNIVORE (Swin-B, finetuned)	61.7	Yes	Omnivore: A Single Model for Many Visual Modalit...	2022-01-20	Code
10	MMT	61	No	-	-	-
11	CAST(ViT-B/16)	60.9	No	CAST: Cross-Attention in Space and Time for Vide...	2023-11-30	Code
12	MeMViT-24	60.3	Yes	MeMViT: Memory-Augmented Multiscale Vision Trans...	2022-01-20	Code
13	TAdaConvNeXtV2-S	60.2	Yes	Temporally-Adaptive Models for Efficient Video U...	2023-08-10	Code
14	AVT	59.3	No	-	-	-
15	ORViT Mformer-L (ORViT blocks)	58.7	No	Object-Region Video Transformers	2021-10-13	Code
16	Mformer-HR	58.5	Yes	Keeping Your Eye on the Ball: Trajectory Attenti...	2021-06-09	Code
17	MBT	58	No	Attention Bottlenecks for Multimodal Fusion	2021-06-30	Code
18	Mformer-L	57.6	Yes	Keeping Your Eye on the Ball: Trajectory Attenti...	2021-06-09	Code
19	MoViNet-A6	57.3	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
20	ViViT-L/16x2 Fact. encoder	56.8	No	ViViT: A Video Vision Transformer	2021-03-29	Code
21	Mformer	56.5	Yes	Keeping Your Eye on the Ball: Trajectory Attenti...	2021-06-09	Code
22	MoViNet-A4	56.2	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
23	MoViNet-A5	55.1	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
24	TempAgg	53.35	No	Technical Report: Temporal Aggregate Representat...	2021-06-06	Code
25	GSF	53.18	Yes	Gate-Shift-Fuse for Video Action Recognition	2022-03-16	Code
26	MoViNet-A2	52.3	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code
27	MoViNet-A0	47.4	No	MoViNets: Mobile Video Networks for Efficient Vi...	2021-03-21	Code

#1LLaVActionSOTA
69
Noun@1· Extra Data· 2025-03-24
LLaVAction: evaluating and training multi-modal large language models for action recognition Code
#2TIMSOTA
66.4
Noun@1· Extra Data· 2024-04-08
TIM: A Time Interval Machine for Audio-Visual Action Recognition Code
#3M&M (WTS 60M)SOTA
66.3
Noun@1· Extra Data· 2022-06-20
M&M Mix: A Multimodal Multiview Transformer Ensemble
#4Avion (ViT-L)
65.4
Noun@1· Extra Data· 2023-09-28
Training a Large Video Model on a Single Machine in a Day Code
#5TAdaFormer-L/14
64.1
Noun@1· Extra Data· 2023-08-10
Temporally-Adaptive Models for Efficient Video Understanding Code
#6MTV-B (WTS 60M)SOTA
63.9
Noun@1· Extra Data· 2022-01-12
Multiview Transformers for Video Recognition Code
#7LaViLa (TimeSformer-L)
62.9
Noun@1· Extra Data· 2022-12-08
Learning Video Representations from Large Language Models Code
#8LVMAE
61.8
Noun@1· Extra Data· 2024-11-20
Extending Video Masked Autoencoders to 128 frames
#9OMNIVORE (Swin-B, finetuned)
61.7
Noun@1· Extra Data· 2022-01-20
Omnivore: A Single Model for Many Visual Modalities Code
#10MMT
61
Noun@1
No paper
#11CAST(ViT-B/16)
60.9
Noun@1· 2023-11-30
CAST: Cross-Attention in Space and Time for Video Action Recognition Code
#12MeMViT-24
60.3
Noun@1· Extra Data· 2022-01-20
MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition Code
#13TAdaConvNeXtV2-S
60.2
Noun@1· Extra Data· 2023-08-10
Temporally-Adaptive Models for Efficient Video Understanding Code
#14AVT
59.3
Noun@1
No paper
#15ORViT Mformer-L (ORViT blocks)SOTA
58.7
Noun@1· 2021-10-13
Object-Region Video Transformers Code
#16Mformer-HRSOTA
58.5
Noun@1· Extra Data· 2021-06-09
Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers Code
#17MBT
58
Noun@1· 2021-06-30
Attention Bottlenecks for Multimodal Fusion Code
#18Mformer-L
57.6
Noun@1· Extra Data· 2021-06-09
Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers Code
#19MoViNet-A6SOTA
57.3
Noun@1· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#20ViViT-L/16x2 Fact. encoder
56.8
Noun@1· 2021-03-29
ViViT: A Video Vision Transformer Code
#21Mformer
56.5
Noun@1· Extra Data· 2021-06-09
Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers Code
#22MoViNet-A4
56.2
Noun@1· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#23MoViNet-A5
55.1
Noun@1· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#24TempAgg
53.35
Noun@1· 2021-06-06
Technical Report: Temporal Aggregate Representations Code
#25GSF
53.18
Noun@1· Extra Data· 2022-03-16
Gate-Shift-Fuse for Video Action Recognition Code
#26MoViNet-A2
52.3
Noun@1· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code
#27MoViNet-A0
47.4
Noun@1· 2021-03-21
MoViNets: Mobile Video Networks for Efficient Video Recognition Code