STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer for Skeleton-based Action Recognition

Nguyen Huu Bao Long

2023-12-06Skeleton Based Action Recognition Action Recognition

Abstract

Graph convolutional networks (GCNs) have been widely used and achieved remarkable results in skeleton-based action recognition. We think the key to skeleton-based action recognition is a skeleton hanging in frames, so we focus on how the Graph Convolutional Convolution networks learn different topologies and effectively aggregate joint features in the global temporal and local temporal. In this work, we propose three Channel-wise Tolopogy Graph Convolution based on Channel-wise Topology Refinement Graph Convolution (CTR-GCN). Combining CTR-GCN with two joint cross-attention modules can capture the upper-lower body part and hand-foot relationship skeleton features. After that, to capture features of human skeletons changing in frames we design the Temporal Attention Transformers to extract skeletons effectively. The Temporal Attention Transformers can learn the temporal features of human skeleton sequences. Finally, we fuse the temporal features output scale with MLP and classification. We develop a powerful graph convolutional network named Spatial Temporal Effective Body-part Cross Attention Transformer which notably high-performance on the NTU RGB+D, NTU RGB+D 120 datasets. Our code and models are available at https://github.com/maclong01/STEP-CATFormer

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Video	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Video	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Video	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Video	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Temporal Action Localization	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Temporal Action Localization	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Activity Recognition	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Activity Recognition	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Activity Recognition	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Activity Recognition	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Action Localization	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Action Localization	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Action Localization	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Action Localization	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Action Detection	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Action Detection	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Action Detection	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Action Detection	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
3D Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
3D Action Recognition	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
3D Action Recognition	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
3D Action Recognition	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Action Recognition	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Action Recognition	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Action Recognition	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Video	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Video	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Video	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Video	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Temporal Action Localization	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Temporal Action Localization	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Zero-Shot Learning	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Activity Recognition	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Activity Recognition	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Activity Recognition	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Activity Recognition	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Action Localization	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Action Localization	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Action Localization	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Action Localization	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Action Detection	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Action Detection	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Action Detection	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Action Detection	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
3D Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
3D Action Recognition	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
3D Action Recognition	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
3D Action Recognition	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.2	STEP-CATFormer
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90	STEP-CATFormer
Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	STEP-CATFormer
Action Recognition	NTU RGB+D	Accuracy (CS)	93.2	STEP-CATFormer
Action Recognition	NTU RGB+D	Accuracy (CV)	97.3	STEP-CATFormer
Action Recognition	NTU RGB+D	Ensembled Modalities	4	STEP-CATFormer

STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer for Skeleton-based Action Recognition

Abstract

Results

Related Papers

STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer for Skeleton-based Action Recognition

Abstract

Results

Related Papers