Hierarchically Decomposed Graph Convolutional Networks for Skeleton-Based Action Recognition

Jungho Lee, Minhyeok Lee, Dogyoon Lee, Sangyoun Lee

2022-08-23ICCV 2023 1Skeleton Based Action Recognition Action Recognition

Abstract

Graph convolutional networks (GCNs) are the most commonly used methods for skeleton-based action recognition and have achieved remarkable performance. Generating adjacency matrices with semantically meaningful edges is particularly important for this task, but extracting such edges is challenging problem. To solve this, we propose a hierarchically decomposed graph convolutional network (HD-GCN) architecture with a novel hierarchically decomposed graph (HD-Graph). The proposed HD-GCN effectively decomposes every joint node into several sets to extract major structurally adjacent and distant edges, and uses them to construct an HD-Graph containing those edges in the same semantic spaces of a human skeleton. In addition, we introduce an attention-guided hierarchy aggregation (A-HA) module to highlight the dominant hierarchical edge sets of the HD-Graph. Furthermore, we apply a new six-way ensemble method, which uses only joint and bone stream without any motion stream. The proposed model is evaluated and achieves state-of-the-art performance on four large, popular datasets. Finally, we demonstrate the effectiveness of our model with various comparative experiments.

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	91.6	HD-GCN
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	90.1	HD-GCN
Video	NTU RGB+D 120	Ensembled Modalities	6	HD-GCN
Video	Kinetics-Skeleton dataset	Accuracy	40.9	HD-GCN
Video	N-UCLA	Accuracy	97.2	HD-GCN
Video	NTU RGB+D	Accuracy (CS)	93.4	HD-GCN
Video	NTU RGB+D	Accuracy (CV)	97.2	HD-GCN
Video	NTU RGB+D	Ensembled Modalities	6	HD-GCN
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.6	HD-GCN
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90.1	HD-GCN
Temporal Action Localization	NTU RGB+D 120	Ensembled Modalities	6	HD-GCN
Temporal Action Localization	Kinetics-Skeleton dataset	Accuracy	40.9	HD-GCN
Temporal Action Localization	N-UCLA	Accuracy	97.2	HD-GCN
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	93.4	HD-GCN
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	97.2	HD-GCN
Temporal Action Localization	NTU RGB+D	Ensembled Modalities	6	HD-GCN
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	91.6	HD-GCN
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	90.1	HD-GCN
Zero-Shot Learning	NTU RGB+D 120	Ensembled Modalities	6	HD-GCN
Zero-Shot Learning	Kinetics-Skeleton dataset	Accuracy	40.9	HD-GCN
Zero-Shot Learning	N-UCLA	Accuracy	97.2	HD-GCN
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	93.4	HD-GCN
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	97.2	HD-GCN
Zero-Shot Learning	NTU RGB+D	Ensembled Modalities	6	HD-GCN
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.6	HD-GCN
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90.1	HD-GCN
Activity Recognition	NTU RGB+D 120	Ensembled Modalities	6	HD-GCN
Activity Recognition	Kinetics-Skeleton dataset	Accuracy	40.9	HD-GCN
Activity Recognition	N-UCLA	Accuracy	97.2	HD-GCN
Activity Recognition	NTU RGB+D	Accuracy (CS)	93.4	HD-GCN
Activity Recognition	NTU RGB+D	Accuracy (CV)	97.2	HD-GCN
Activity Recognition	NTU RGB+D	Ensembled Modalities	6	HD-GCN
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.6	HD-GCN
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90.1	HD-GCN
Action Localization	NTU RGB+D 120	Ensembled Modalities	6	HD-GCN
Action Localization	Kinetics-Skeleton dataset	Accuracy	40.9	HD-GCN
Action Localization	N-UCLA	Accuracy	97.2	HD-GCN
Action Localization	NTU RGB+D	Accuracy (CS)	93.4	HD-GCN
Action Localization	NTU RGB+D	Accuracy (CV)	97.2	HD-GCN
Action Localization	NTU RGB+D	Ensembled Modalities	6	HD-GCN
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	91.6	HD-GCN
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	90.1	HD-GCN
Action Detection	NTU RGB+D 120	Ensembled Modalities	6	HD-GCN
Action Detection	Kinetics-Skeleton dataset	Accuracy	40.9	HD-GCN
Action Detection	N-UCLA	Accuracy	97.2	HD-GCN
Action Detection	NTU RGB+D	Accuracy (CS)	93.4	HD-GCN
Action Detection	NTU RGB+D	Accuracy (CV)	97.2	HD-GCN
Action Detection	NTU RGB+D	Ensembled Modalities	6	HD-GCN
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.6	HD-GCN
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90.1	HD-GCN
3D Action Recognition	NTU RGB+D 120	Ensembled Modalities	6	HD-GCN
3D Action Recognition	Kinetics-Skeleton dataset	Accuracy	40.9	HD-GCN
3D Action Recognition	N-UCLA	Accuracy	97.2	HD-GCN
3D Action Recognition	NTU RGB+D	Accuracy (CS)	93.4	HD-GCN
3D Action Recognition	NTU RGB+D	Accuracy (CV)	97.2	HD-GCN
3D Action Recognition	NTU RGB+D	Ensembled Modalities	6	HD-GCN
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.6	HD-GCN
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90.1	HD-GCN
Action Recognition	NTU RGB+D 120	Ensembled Modalities	6	HD-GCN
Action Recognition	Kinetics-Skeleton dataset	Accuracy	40.9	HD-GCN
Action Recognition	N-UCLA	Accuracy	97.2	HD-GCN
Action Recognition	NTU RGB+D	Accuracy (CS)	93.4	HD-GCN
Action Recognition	NTU RGB+D	Accuracy (CV)	97.2	HD-GCN
Action Recognition	NTU RGB+D	Ensembled Modalities	6	HD-GCN

Hierarchically Decomposed Graph Convolutional Networks for Skeleton-Based Action Recognition

Abstract

Results

Related Papers

Hierarchically Decomposed Graph Convolutional Networks for Skeleton-Based Action Recognition

Abstract

Results

Related Papers