Spatial Temporal Graph Attention Network for Skeleton-Based Action Recognition

Lianyu Hu, Shenglan Liu, Wei Feng

2022-08-18Skeleton Based Action Recognition Action Recognition Graph Attention

Abstract

It's common for current methods in skeleton-based action recognition to mainly consider capturing long-term temporal dependencies as skeleton sequences are typically long (>128 frames), which forms a challenging problem for previous approaches. In such conditions, short-term dependencies are few formally considered, which are critical for classifying similar actions. Most current approaches are consisted of interleaving spatial-only modules and temporal-only modules, where direct information flow among joints in adjacent frames are hindered, thus inferior to capture short-term motion and distinguish similar action pairs. To handle this limitation, we propose a general framework, coined as STGAT, to model cross-spacetime information flow. It equips the spatial-only modules with spatial-temporal modeling for regional perception. While STGAT is theoretically effective for spatial-temporal modeling, we propose three simple modules to reduce local spatial-temporal feature redundancy and further release the potential of STGAT, which (1) narrow the scope of self-attention mechanism, (2) dynamically weight joints along temporal dimension, and (3) separate subtle motion from static features, respectively. As a robust feature extractor, STGAT generalizes better upon classifying similar actions than previous methods, witnessed by both qualitative and quantitative results. STGAT achieves state-of-the-art performance on three large-scale datasets: NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400. Code is released.

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Video	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Video	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Video	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Video	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Video	NTU RGB+D	Ensembled Modalities	4	STGAT
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Temporal Action Localization	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Temporal Action Localization	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Temporal Action Localization	NTU RGB+D	Ensembled Modalities	4	STGAT
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Zero-Shot Learning	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Zero-Shot Learning	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Zero-Shot Learning	NTU RGB+D	Ensembled Modalities	4	STGAT
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Activity Recognition	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Activity Recognition	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Activity Recognition	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Activity Recognition	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Activity Recognition	NTU RGB+D	Ensembled Modalities	4	STGAT
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Action Localization	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Action Localization	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Action Localization	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Action Localization	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Action Localization	NTU RGB+D	Ensembled Modalities	4	STGAT
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Action Detection	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Action Detection	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Action Detection	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Action Detection	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Action Detection	NTU RGB+D	Ensembled Modalities	4	STGAT
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
3D Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	STGAT
3D Action Recognition	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
3D Action Recognition	NTU RGB+D	Accuracy (CS)	92.8	STGAT
3D Action Recognition	NTU RGB+D	Accuracy (CV)	97.3	STGAT
3D Action Recognition	NTU RGB+D	Ensembled Modalities	4	STGAT
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Action Recognition	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Action Recognition	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Action Recognition	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Action Recognition	NTU RGB+D	Ensembled Modalities	4	STGAT

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Video	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Video	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Video	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Video	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Video	NTU RGB+D	Ensembled Modalities	4	STGAT
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Temporal Action Localization	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Temporal Action Localization	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Temporal Action Localization	NTU RGB+D	Ensembled Modalities	4	STGAT
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Zero-Shot Learning	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Zero-Shot Learning	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Zero-Shot Learning	NTU RGB+D	Ensembled Modalities	4	STGAT
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Activity Recognition	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Activity Recognition	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Activity Recognition	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Activity Recognition	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Activity Recognition	NTU RGB+D	Ensembled Modalities	4	STGAT
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Action Localization	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Action Localization	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Action Localization	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Action Localization	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Action Localization	NTU RGB+D	Ensembled Modalities	4	STGAT
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Action Detection	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Action Detection	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Action Detection	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Action Detection	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Action Detection	NTU RGB+D	Ensembled Modalities	4	STGAT
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
3D Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	STGAT
3D Action Recognition	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
3D Action Recognition	NTU RGB+D	Accuracy (CS)	92.8	STGAT
3D Action Recognition	NTU RGB+D	Accuracy (CV)	97.3	STGAT
3D Action Recognition	NTU RGB+D	Ensembled Modalities	4	STGAT
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	90.4	STGAT
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	88.7	STGAT
Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	STGAT
Action Recognition	Kinetics-400	Actions Top-1 (S1)	39.2	STGAT
Action Recognition	NTU RGB+D	Accuracy (CS)	92.8	STGAT
Action Recognition	NTU RGB+D	Accuracy (CV)	97.3	STGAT
Action Recognition	NTU RGB+D	Ensembled Modalities	4	STGAT

Spatial Temporal Graph Attention Network for Skeleton-Based Action Recognition

Abstract

Results

Related Papers

Spatial Temporal Graph Attention Network for Skeleton-Based Action Recognition

Abstract

Results

Related Papers