Constructing Stronger and Faster Baselines for Skeleton-based Action Recognition

Yi-Fan Song, Zhang Zhang, Caifeng Shan, Liang Wang

2021-06-29Skeleton Based Action Recognition Action Recognition

Abstract

One essential problem in skeleton-based action recognition is how to extract discriminative features over all skeleton joints. However, the complexity of the recent State-Of-The-Art (SOTA) models for this task tends to be exceedingly sophisticated and over-parameterized. The low efficiency in model training and inference has increased the validation costs of model architectures in large-scale datasets. To address the above issue, recent advanced separable convolutional layers are embedded into an early fused Multiple Input Branches (MIB) network, constructing an efficient Graph Convolutional Network (GCN) baseline for skeleton-based action recognition. In addition, based on such the baseline, we design a compound scaling strategy to expand the model's width and depth synchronously, and eventually obtain a family of efficient GCN baselines with high accuracies and small amounts of trainable parameters, termed EfficientGCN-Bx, where "x" denotes the scaling coefficient. On two large-scale datasets, i.e., NTU RGB+D 60 and 120, the proposed EfficientGCN-B4 baseline outperforms other SOTA methods, e.g., achieving 91.7% accuracy on the cross-subject benchmark of NTU 60 dataset, while being 3.15x smaller and 3.21x faster than MS-G3D, which is one of the best SOTA methods. The source code in PyTorch version and the pretrained models are available at https://github.com/yfsong0709/EfficientGCNv1.

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Video	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Video	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Video	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Video	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Video	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Video	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Activity Recognition	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Activity Recognition	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Activity Recognition	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Activity Recognition	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Activity Recognition	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Activity Recognition	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Action Localization	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Action Localization	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Action Localization	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Action Localization	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Action Localization	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Action Localization	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Action Detection	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Action Detection	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Action Detection	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Action Detection	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Action Detection	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Action Detection	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
3D Action Recognition	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
3D Action Recognition	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
3D Action Recognition	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
3D Action Recognition	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
3D Action Recognition	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
3D Action Recognition	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Action Recognition	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Action Recognition	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Action Recognition	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Action Recognition	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Action Recognition	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Action Recognition	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Video	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Video	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Video	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Video	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Video	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Video	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Activity Recognition	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Activity Recognition	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Activity Recognition	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Activity Recognition	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Activity Recognition	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Activity Recognition	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Action Localization	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Action Localization	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Action Localization	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Action Localization	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Action Localization	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Action Localization	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Action Detection	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Action Detection	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Action Detection	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Action Detection	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Action Detection	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Action Detection	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
3D Action Recognition	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
3D Action Recognition	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
3D Action Recognition	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
3D Action Recognition	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
3D Action Recognition	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
3D Action Recognition	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	89.1	EfficientGCN-B4
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	EfficientGCN-B4
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	88	EfficientGCN-B2
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	87.9	EfficientGCN-B2
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	84.3	EfficientGCN-B0
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	85.9	EfficientGCN-B0
Action Recognition	NTU RGB+D	Accuracy (CS)	92.1	EfficientGCN-B4
Action Recognition	NTU RGB+D	Accuracy (CV)	96.1	EfficientGCN-B4
Action Recognition	NTU RGB+D	Accuracy (CS)	90.9	EfficientGCN-B2
Action Recognition	NTU RGB+D	Accuracy (CV)	95.5	EfficientGCN-B2
Action Recognition	NTU RGB+D	Accuracy (CS)	89.9	EfficientGCN-B0
Action Recognition	NTU RGB+D	Accuracy (CV)	94.7	EfficientGCN-B0

Constructing Stronger and Faster Baselines for Skeleton-based Action Recognition

Abstract

Results

Related Papers

Constructing Stronger and Faster Baselines for Skeleton-based Action Recognition

Abstract

Results

Related Papers