Learning Graph Convolutional Network for Skeleton-based Human Action Recognition by Neural Searching

Wei Peng, Xiaopeng Hong, Haoyu Chen, Guoying Zhao

2019-11-11Skeleton Based Action Recognition Neural Architecture Search Action Recognition

Abstract

Human action recognition from skeleton data, fueled by the Graph Convolutional Network (GCN), has attracted lots of attention, due to its powerful capability of modeling non-Euclidean structure data. However, many existing GCN methods provide a pre-defined graph and fix it through the entire network, which can loss implicit joint correlations. Besides, the mainstream spectral GCN is approximated by one-order hop, thus higher-order connections are not well involved. Therefore, huge efforts are required to explore a better GCN architecture. To address these problems, we turn to Neural Architecture Search (NAS) and propose the first automatically designed GCN for skeleton-based action recognition. Specifically, we enrich the search space by providing multiple dynamic graph modules after fully exploring the spatial-temporal correlations between nodes. Besides, we introduce multiple-hop modules and expect to break the limitation of representational capacity caused by one-order approximation. Moreover, a sampling- and memory-efficient evolution strategy is proposed to search an optimal architecture for this task. The resulted architecture proves the effectiveness of the higher-order approximation and the dynamic graph modeling mechanism with temporal interactions, which is barely discussed before. To evaluate the performance of the searched model, we conduct extensive experiments on two very large scaled datasets and the results show that our model gets the state-of-the-art results.

Results

Task	Dataset	Metric	Value	Model
Video	Kinetics-Skeleton dataset	Accuracy	37.1	GCN-NAS
Video	NTU RGB+D	Accuracy (CS)	89.4	GCN-NAS
Video	NTU RGB+D	Accuracy (CV)	95.7	GCN-NAS
Temporal Action Localization	Kinetics-Skeleton dataset	Accuracy	37.1	GCN-NAS
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	89.4	GCN-NAS
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	95.7	GCN-NAS
Zero-Shot Learning	Kinetics-Skeleton dataset	Accuracy	37.1	GCN-NAS
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	89.4	GCN-NAS
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	95.7	GCN-NAS
Activity Recognition	Kinetics-Skeleton dataset	Accuracy	37.1	GCN-NAS
Activity Recognition	NTU RGB+D	Accuracy (CS)	89.4	GCN-NAS
Activity Recognition	NTU RGB+D	Accuracy (CV)	95.7	GCN-NAS
Action Localization	Kinetics-Skeleton dataset	Accuracy	37.1	GCN-NAS
Action Localization	NTU RGB+D	Accuracy (CS)	89.4	GCN-NAS
Action Localization	NTU RGB+D	Accuracy (CV)	95.7	GCN-NAS
Action Detection	Kinetics-Skeleton dataset	Accuracy	37.1	GCN-NAS
Action Detection	NTU RGB+D	Accuracy (CS)	89.4	GCN-NAS
Action Detection	NTU RGB+D	Accuracy (CV)	95.7	GCN-NAS
3D Action Recognition	Kinetics-Skeleton dataset	Accuracy	37.1	GCN-NAS
3D Action Recognition	NTU RGB+D	Accuracy (CS)	89.4	GCN-NAS
3D Action Recognition	NTU RGB+D	Accuracy (CV)	95.7	GCN-NAS
Action Recognition	Kinetics-Skeleton dataset	Accuracy	37.1	GCN-NAS
Action Recognition	NTU RGB+D	Accuracy (CS)	89.4	GCN-NAS
Action Recognition	NTU RGB+D	Accuracy (CV)	95.7	GCN-NAS

Learning Graph Convolutional Network for Skeleton-based Human Action Recognition by Neural Searching

Abstract

Results

Related Papers

Learning Graph Convolutional Network for Skeleton-based Human Action Recognition by Neural Searching

Abstract

Results

Related Papers