MoViNets: Mobile Video Networks for Efficient Video Recognition

Dan Kondratyuk, Liangzhe Yuan, Yandong Li, Li Zhang, Mingxing Tan, Matthew Brown, Boqing Gong

2021-03-21CVPR 2021 1Action Classification Video Recognition Neural Architecture Search Action Recognition Temporal Action Localization

Paper PDF Code(official)Code Code

Abstract

We present Mobile Video Networks (MoViNets), a family of computation and memory efficient video networks that can operate on streaming video for online inference. 3D convolutional neural networks (CNNs) are accurate at video recognition but require large computation and memory budgets and do not support online inference, making them difficult to work on mobile devices. We propose a three-step approach to improve computational efficiency while substantially reducing the peak memory usage of 3D CNNs. First, we design a video network search space and employ neural architecture search to generate efficient and diverse 3D CNN architectures. Second, we introduce the Stream Buffer technique that decouples memory from video clip duration, allowing 3D CNNs to embed arbitrary-length streaming video sequences for both training and inference with a small constant memory footprint. Third, we propose a simple ensembling technique to improve accuracy further without sacrificing efficiency. These three progressive techniques allow MoViNets to achieve state-of-the-art accuracy and efficiency on the Kinetics, Moments in Time, and Charades video action recognition datasets. For instance, MoViNet-A5-Stream achieves the same accuracy as X3D-XL on Kinetics 600 while requiring 80% fewer FLOPs and 65% less memory. Code will be made available at https://github.com/tensorflow/models/tree/master/official/vision.

Results

Task	Dataset	Metric	Value	Model
Video	Kinetics-700	Top-1 Accuracy	72.3	MoViNet-A6
Video	Kinetics-700	Top-1 Accuracy	71.7	MoViNet-A5
Video	Kinetics-700	Top-1 Accuracy	70.7	MoViNet-A4
Video	Kinetics-700	Top-1 Accuracy	68	MoViNet-A3
Video	Kinetics-700	Top-1 Accuracy	66.7	MoViNet-A2
Video	Kinetics-700	Top-1 Accuracy	63.5	MoViNet-A1
Video	Kinetics-700	Top-1 Accuracy	58.5	MoViNet-A0
Video	Charades	MAP	63.2	MoViNet-A6
Video	Charades	MAP	48.5	MoViNet-A4
Video	Charades	MAP	32.5	MoViNet-A2
Video	MiT	Top 1 Accuracy	40.2	MoViNet-A6
Video	MiT	Top 1 Accuracy	39.1	MoViNet-A5
Video	MiT	Top 1 Accuracy	37.9	MoViNet-A4
Video	MiT	Top 1 Accuracy	35.6	MoViNet-A3
Video	MiT	Top 1 Accuracy	34.3	MoViNet-A2
Video	MiT	Top 1 Accuracy	32	MoViNet-A1
Video	MiT	Top 1 Accuracy	27.5	MoViNet-A0
Video	Kinetics-400	Acc@1	81.5	MoViNet-A6
Video	Kinetics-400	Acc@1	80.9	MoViNet-A5
Video	Kinetics-400	Acc@5	94.9	MoViNet-A5
Video	Kinetics-400	Acc@1	80.5	MoViNet-A4
Video	Kinetics-400	Acc@5	94.5	MoViNet-A4
Video	Kinetics-400	Acc@1	78.2	MoViNet-A3
Video	Kinetics-400	Acc@5	93.8	MoViNet-A3
Video	Kinetics-400	Acc@1	75	MoViNet-A2
Video	Kinetics-400	Acc@5	92.3	MoViNet-A2
Video	Kinetics-400	Acc@1	72.7	MoViNet-A1
Video	Kinetics-400	Acc@5	91.2	MoViNet-A1
Video	Kinetics-400	Acc@1	65.8	MoViNet-A0
Video	Kinetics-400	Acc@5	87.4	MoViNet-A0
Video	Kinetics-600	Top-1 Accuracy	84.3	MoViNet-A5 (AutoAugment)
Video	Kinetics-600	Top-5 Accuracy	96.4	MoViNet-A5 (AutoAugment)
Video	Kinetics-600	Top-1 Accuracy	83.5	MoViNet-A6
Video	Kinetics-600	Top-5 Accuracy	96.5	MoViNet-A6
Video	Kinetics-600	Top-1 Accuracy	82.7	MoViNet-A5
Video	Kinetics-600	Top-5 Accuracy	95.7	MoViNet-A5
Video	Kinetics-600	Top-1 Accuracy	81.2	MoViNet-A4
Video	Kinetics-600	Top-5 Accuracy	94.9	MoViNet-A4
Video	Kinetics-600	Top-1 Accuracy	80.8	MoViNet-A3
Video	Kinetics-600	Top-5 Accuracy	80.8	MoViNet-A3
Video	Kinetics-600	Top-1 Accuracy	77.5	MoViNet-A2
Video	Kinetics-600	Top-5 Accuracy	93.4	MoViNet-A2
Video	Kinetics-600	Top-1 Accuracy	76	MoViNet-A1
Video	Kinetics-600	Top-5 Accuracy	92.6	MoViNet-A1
Video	Kinetics-600	Top-1 Accuracy	71.5	MoViNet-A0
Video	Kinetics-600	Top-5 Accuracy	90.4	MoViNet-A0
Activity Recognition	EPIC-KITCHENS-100	Action@1	47.7	MoViNet-A6
Activity Recognition	EPIC-KITCHENS-100	Noun@1	57.3	MoViNet-A6
Activity Recognition	EPIC-KITCHENS-100	Verb@1	72.2	MoViNet-A6
Activity Recognition	EPIC-KITCHENS-100	Action@1	44.5	MoViNet-A5
Activity Recognition	EPIC-KITCHENS-100	Noun@1	55.1	MoViNet-A5
Activity Recognition	EPIC-KITCHENS-100	Verb@1	69.1	MoViNet-A5
Activity Recognition	EPIC-KITCHENS-100	Action@1	44.4	MoViNet-A4
Activity Recognition	EPIC-KITCHENS-100	Noun@1	56.2	MoViNet-A4
Activity Recognition	EPIC-KITCHENS-100	Verb@1	68.8	MoViNet-A4
Activity Recognition	EPIC-KITCHENS-100	Action@1	41.2	MoViNet-A2
Activity Recognition	EPIC-KITCHENS-100	Noun@1	52.3	MoViNet-A2
Activity Recognition	EPIC-KITCHENS-100	Verb@1	67.1	MoViNet-A2
Activity Recognition	EPIC-KITCHENS-100	Action@1	36.8	MoViNet-A0
Activity Recognition	EPIC-KITCHENS-100	Noun@1	47.4	MoViNet-A0
Activity Recognition	EPIC-KITCHENS-100	Verb@1	64.8	MoViNet-A0
Activity Recognition	Something-Something V2	Top-1 Accuracy	63.5	MoViNet-A2
Activity Recognition	Something-Something V2	Top-5 Accuracy	89	MoViNet-A2
Activity Recognition	Something-Something V2	Top-1 Accuracy	62.7	MoViNet-A1
Activity Recognition	Something-Something V2	Top-5 Accuracy	89	MoViNet-A1
Activity Recognition	Something-Something V2	Top-1 Accuracy	61.3	MoViNet-A0
Activity Recognition	Something-Something V2	Top-5 Accuracy	88.2	MoViNet-A0
Action Recognition	EPIC-KITCHENS-100	Action@1	47.7	MoViNet-A6
Action Recognition	EPIC-KITCHENS-100	Noun@1	57.3	MoViNet-A6
Action Recognition	EPIC-KITCHENS-100	Verb@1	72.2	MoViNet-A6
Action Recognition	EPIC-KITCHENS-100	Action@1	44.5	MoViNet-A5
Action Recognition	EPIC-KITCHENS-100	Noun@1	55.1	MoViNet-A5
Action Recognition	EPIC-KITCHENS-100	Verb@1	69.1	MoViNet-A5
Action Recognition	EPIC-KITCHENS-100	Action@1	44.4	MoViNet-A4
Action Recognition	EPIC-KITCHENS-100	Noun@1	56.2	MoViNet-A4
Action Recognition	EPIC-KITCHENS-100	Verb@1	68.8	MoViNet-A4
Action Recognition	EPIC-KITCHENS-100	Action@1	41.2	MoViNet-A2
Action Recognition	EPIC-KITCHENS-100	Noun@1	52.3	MoViNet-A2
Action Recognition	EPIC-KITCHENS-100	Verb@1	67.1	MoViNet-A2
Action Recognition	EPIC-KITCHENS-100	Action@1	36.8	MoViNet-A0
Action Recognition	EPIC-KITCHENS-100	Noun@1	47.4	MoViNet-A0
Action Recognition	EPIC-KITCHENS-100	Verb@1	64.8	MoViNet-A0
Action Recognition	Something-Something V2	Top-1 Accuracy	63.5	MoViNet-A2
Action Recognition	Something-Something V2	Top-5 Accuracy	89	MoViNet-A2
Action Recognition	Something-Something V2	Top-1 Accuracy	62.7	MoViNet-A1
Action Recognition	Something-Something V2	Top-5 Accuracy	89	MoViNet-A1
Action Recognition	Something-Something V2	Top-1 Accuracy	61.3	MoViNet-A0
Action Recognition	Something-Something V2	Top-5 Accuracy	88.2	MoViNet-A0

MoViNets: Mobile Video Networks for Efficient Video Recognition

Abstract

Results

Related Papers

MoViNets: Mobile Video Networks for Efficient Video Recognition

Abstract

Results

Related Papers