Hypergraph Transformer for Skeleton-based Action Recognition

Yuxuan Zhou, Zhi-Qi Cheng, Chao Li, Yanwen Fang, Yifeng Geng, Xuansong Xie, Margret Keuper

2022-11-17Skeleton Based Action Recognition Action Recognition

Abstract

Skeleton-based action recognition aims to recognize human actions given human joint coordinates with skeletal interconnections. By defining a graph with joints as vertices and their natural connections as edges, previous works successfully adopted Graph Convolutional networks (GCNs) to model joint co-occurrences and achieved superior performance. More recently, a limitation of GCNs is identified, i.e., the topology is fixed after training. To relax such a restriction, Self-Attention (SA) mechanism has been adopted to make the topology of GCNs adaptive to the input, resulting in the state-of-the-art hybrid models. Concurrently, attempts with plain Transformers have also been made, but they still lag behind state-of-the-art GCN-based methods due to the lack of structural prior. Unlike hybrid models, we propose a more elegant solution to incorporate the bone connectivity into Transformer via a graph distance embedding. Our embedding retains the information of skeletal structure during training, whereas GCNs merely use it for initialization. More importantly, we reveal an underlying issue of graph models in general, i.e., pairwise aggregation essentially ignores the high-order kinematic dependencies between body joints. To fill this gap, we propose a new self-attention (SA) mechanism on hypergraph, termed Hypergraph Self-Attention (HyperSA), to incorporate intrinsic higher-order relations into the model. We name the resulting model Hyperformer, and it beats state-of-the-art graph models w.r.t. accuracy and efficiency on NTU RGB+D, NTU RGB+D 120, and Northwestern-UCLA datasets.

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Video	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Video	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Video	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Video	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Temporal Action Localization	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Temporal Action Localization	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Zero-Shot Learning	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Zero-Shot Learning	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Activity Recognition	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Activity Recognition	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Activity Recognition	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Activity Recognition	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Action Localization	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Action Localization	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Action Localization	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Action Localization	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Action Detection	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Action Detection	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Action Detection	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Action Detection	NTU RGB+D	Ensembled Modalities	4	Hyperformer
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
3D Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
3D Action Recognition	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
3D Action Recognition	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
3D Action Recognition	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Action Recognition	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Action Recognition	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Action Recognition	NTU RGB+D	Ensembled Modalities	4	Hyperformer

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Video	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Video	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Video	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Video	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Temporal Action Localization	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Temporal Action Localization	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Zero-Shot Learning	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Zero-Shot Learning	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Activity Recognition	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Activity Recognition	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Activity Recognition	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Activity Recognition	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Action Localization	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Action Localization	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Action Localization	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Action Localization	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Action Detection	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Action Detection	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Action Detection	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Action Detection	NTU RGB+D	Ensembled Modalities	4	Hyperformer
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
3D Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
3D Action Recognition	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
3D Action Recognition	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
3D Action Recognition	NTU RGB+D	Ensembled Modalities	4	Hyperformer
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.3	Hyperformer
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	89.9	Hyperformer
Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	Hyperformer
Action Recognition	NTU RGB+D	Accuracy (CS)	92.9	Hyperformer
Action Recognition	NTU RGB+D	Accuracy (CV)	96.5	Hyperformer
Action Recognition	NTU RGB+D	Ensembled Modalities	4	Hyperformer

Hypergraph Transformer for Skeleton-based Action Recognition

Abstract

Results

Related Papers

Hypergraph Transformer for Skeleton-based Action Recognition

Abstract

Results

Related Papers