STM: SpatioTemporal and Motion Encoding for Action Recognition

Boyuan Jiang, Mengmeng Wang, Weihao Gan, Wei Wu, Junjie Yan

2019-08-07ICCV 2019 10Action Classification Action Recognition Action Recognition In Videos Temporal Action Localization

Paper PDF

Abstract

Spatiotemporal and motion features are two complementary and crucial information for video action recognition. Recent state-of-the-art methods adopt a 3D CNN stream to learn spatiotemporal features and another flow stream to learn motion features. In this work, we aim to efficiently encode these two features in a unified 2D framework. To this end, we first propose an STM block, which contains a Channel-wise SpatioTemporal Module (CSTM) to present the spatiotemporal features and a Channel-wise Motion Module (CMM) to efficiently encode motion features. We then replace original residual blocks in the ResNet architecture with STM blcoks to form a simple yet effective STM network by introducing very limited extra computation cost. Extensive experiments demonstrate that the proposed STM network outperforms the state-of-the-art methods on both temporal-related datasets (i.e., Something-Something v1 & v2 and Jester) and scene-related datasets (i.e., Kinetics-400, UCF-101, and HMDB-51) with the help of encoding spatiotemporal and motion features together.

Results

Task	Dataset	Metric	Value	Model
Video	Kinetics-400	Acc@1	73.7	STM (ResNet-50)
Activity Recognition	Jester (Gesture Recognition)	Val	96.7	STM (Resnet-50, 16 frames)
Activity Recognition	Something-Something V1	Top 1 Accuracy	50.7	STM (16 frames, ImageNet pretraining)
Activity Recognition	Something-Something V2	Top-1 Accuracy	64.2	STM (16 frames, ImageNet pretraining)
Activity Recognition	Something-Something V2	Top-5 Accuracy	89.8	STM (16 frames, ImageNet pretraining)
Activity Recognition	UCF101	3-fold Accuracy	96.2	STM (ImageNet+Kinetics pretrain)
Activity Recognition	HMDB-51	Average accuracy of 3 splits	72.2	STM (ImageNet+Kinetics pretrain)
Action Recognition	Jester (Gesture Recognition)	Val	96.7	STM (Resnet-50, 16 frames)
Action Recognition	Something-Something V1	Top 1 Accuracy	50.7	STM (16 frames, ImageNet pretraining)
Action Recognition	Something-Something V2	Top-1 Accuracy	64.2	STM (16 frames, ImageNet pretraining)
Action Recognition	Something-Something V2	Top-5 Accuracy	89.8	STM (16 frames, ImageNet pretraining)
Action Recognition	UCF101	3-fold Accuracy	96.2	STM (ImageNet+Kinetics pretrain)
Action Recognition	HMDB-51	Average accuracy of 3 splits	72.2	STM (ImageNet+Kinetics pretrain)
Action Recognition In Videos	Jester (Gesture Recognition)	Val	96.7	STM (Resnet-50, 16 frames)
Action Recognition In Videos	Something-Something V1	Top 1 Accuracy	50.7	STM (16 frames, ImageNet pretraining)
Action Recognition In Videos	Something-Something V2	Top-1 Accuracy	64.2	STM (16 frames, ImageNet pretraining)
Action Recognition In Videos	Something-Something V2	Top-5 Accuracy	89.8	STM (16 frames, ImageNet pretraining)
Action Recognition In Videos	UCF101	3-fold Accuracy	96.2	STM (ImageNet+Kinetics pretrain)
Action Recognition In Videos	HMDB-51	Average accuracy of 3 splits	72.2	STM (ImageNet+Kinetics pretrain)

STM: SpatioTemporal and Motion Encoding for Action Recognition

Abstract

Results

Related Papers

STM: SpatioTemporal and Motion Encoding for Action Recognition

Abstract

Results

Related Papers