Skeleton-Based Action Recognition with Synchronous Local and Non-local Spatio-temporal Learning and Frequency Attention

Guyue Hu, Bo Cui, Shan Yu

2018-11-10Skeleton Based Action Recognition Action Recognition Temporal Action Localization

Abstract

Benefiting from its succinctness and robustness, skeleton-based action recognition has recently attracted much attention. Most existing methods utilize local networks (e.g., recurrent, convolutional, and graph convolutional networks) to extract spatio-temporal dynamics hierarchically. As a consequence, the local and non-local dependencies, which contain more details and semantics respectively, are asynchronously captured in different level of layers. Moreover, existing methods are limited to the spatio-temporal domain and ignore information in the frequency domain. To better extract synchronous detailed and semantic information from multi-domains, we propose a residual frequency attention (rFA) block to focus on discriminative patterns in the frequency domain, and a synchronous local and non-local (SLnL) block to simultaneously capture the details and semantics in the spatio-temporal domain. Besides, a soft-margin focal loss (SMFL) is proposed to optimize the learning whole process, which automatically conducts data selection and encourages intrinsic margins in classifiers. Our approach significantly outperforms other state-of-the-art methods on several large-scale datasets.

Results

Task	Dataset	Metric	Value	Model
Video	Kinetics-Skeleton dataset	Accuracy	36.6	SLnL-rFA
Video	NTU RGB+D	Accuracy (CS)	89.1	SLnL-rFA
Video	NTU RGB+D	Accuracy (CV)	94.9	SLnL-rFA
Temporal Action Localization	Kinetics-Skeleton dataset	Accuracy	36.6	SLnL-rFA
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	89.1	SLnL-rFA
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	94.9	SLnL-rFA
Zero-Shot Learning	Kinetics-Skeleton dataset	Accuracy	36.6	SLnL-rFA
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	89.1	SLnL-rFA
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	94.9	SLnL-rFA
Activity Recognition	Kinetics-Skeleton dataset	Accuracy	36.6	SLnL-rFA
Activity Recognition	NTU RGB+D	Accuracy (CS)	89.1	SLnL-rFA
Activity Recognition	NTU RGB+D	Accuracy (CV)	94.9	SLnL-rFA
Action Localization	Kinetics-Skeleton dataset	Accuracy	36.6	SLnL-rFA
Action Localization	NTU RGB+D	Accuracy (CS)	89.1	SLnL-rFA
Action Localization	NTU RGB+D	Accuracy (CV)	94.9	SLnL-rFA
Action Detection	Kinetics-Skeleton dataset	Accuracy	36.6	SLnL-rFA
Action Detection	NTU RGB+D	Accuracy (CS)	89.1	SLnL-rFA
Action Detection	NTU RGB+D	Accuracy (CV)	94.9	SLnL-rFA
3D Action Recognition	Kinetics-Skeleton dataset	Accuracy	36.6	SLnL-rFA
3D Action Recognition	NTU RGB+D	Accuracy (CS)	89.1	SLnL-rFA
3D Action Recognition	NTU RGB+D	Accuracy (CV)	94.9	SLnL-rFA
Action Recognition	Kinetics-Skeleton dataset	Accuracy	36.6	SLnL-rFA
Action Recognition	NTU RGB+D	Accuracy (CS)	89.1	SLnL-rFA
Action Recognition	NTU RGB+D	Accuracy (CV)	94.9	SLnL-rFA

Skeleton-Based Action Recognition with Synchronous Local and Non-local Spatio-temporal Learning and Frequency Attention

Abstract

Results

Related Papers

Skeleton-Based Action Recognition with Synchronous Local and Non-local Spatio-temporal Learning and Frequency Attention

Abstract

Results

Related Papers