HYperbolic Self-Paced Learning for Self-Supervised Skeleton-based Action Representations

Luca Franco, Paolo Mandica, Bharti Munjal, Fabio Galasso

2023-03-10Unsupervised Skeleton Based Action Recognition Skeleton Based Action Recognition Action Recognition Domain Adaptation

Paper PDF Code(official)

Abstract

Self-paced learning has been beneficial for tasks where some initial knowledge is available, such as weakly supervised learning and domain adaptation, to select and order the training sample sequence, from easy to complex. However its applicability remains unexplored in unsupervised learning, whereby the knowledge of the task matures during training. We propose a novel HYperbolic Self-Paced model (HYSP) for learning skeleton-based action representations. HYSP adopts self-supervision: it uses data augmentations to generate two views of the same sample, and it learns by matching one (named online) to the other (the target). We propose to use hyperbolic uncertainty to determine the algorithmic learning pace, under the assumption that less uncertain samples should be more strongly driving the training, with a larger weight and pace. Hyperbolic uncertainty is a by-product of the adopted hyperbolic neural networks, it matures during training and it comes with no extra cost, compared to the established Euclidean SSL framework counterparts. When tested on three established skeleton-based action recognition datasets, HYSP outperforms the state-of-the-art on PKU-MMD I, as well as on 2 out of 3 downstream tasks on NTU-60 and NTU-120. Additionally, HYSP only uses positive pairs and bypasses therefore the complex and computationally-demanding mining procedures required for the negatives in contrastive techniques. Code is available at https://github.com/paolomandica/HYSP.

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Video	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Video	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Video	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Video	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Video	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Temporal Action Localization	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Zero-Shot Learning	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Activity Recognition	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Activity Recognition	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Activity Recognition	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Activity Recognition	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Activity Recognition	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Action Localization	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Action Localization	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Action Localization	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Action Localization	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Action Localization	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Action Detection	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Action Detection	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Action Detection	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Action Detection	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Action Detection	NTU RGB+D	Accuracy (CV)	93.5	HYSP
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
3D Action Recognition	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
3D Action Recognition	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
3D Action Recognition	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
3D Action Recognition	NTU RGB+D	Accuracy (CS)	86.5	HYSP
3D Action Recognition	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Action Recognition	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Action Recognition	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Action Recognition	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Action Recognition	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Action Recognition	NTU RGB+D	Accuracy (CV)	93.5	HYSP

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Video	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Video	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Video	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Video	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Video	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Temporal Action Localization	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Zero-Shot Learning	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Activity Recognition	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Activity Recognition	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Activity Recognition	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Activity Recognition	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Activity Recognition	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Action Localization	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Action Localization	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Action Localization	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Action Localization	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Action Localization	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Action Detection	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Action Detection	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Action Detection	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Action Detection	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Action Detection	NTU RGB+D	Accuracy (CV)	93.5	HYSP
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
3D Action Recognition	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
3D Action Recognition	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
3D Action Recognition	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
3D Action Recognition	NTU RGB+D	Accuracy (CS)	86.5	HYSP
3D Action Recognition	NTU RGB+D	Accuracy (CV)	93.5	HYSP
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	86.3	3s-HYSP
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	84.5	3s-HYSP
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	82	HYSP
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	81.4	HYSP
Action Recognition	PKU-MMD	Accuracy (Cross-Subject)	96.2	3s-HYSP
Action Recognition	NTU RGB+D	Accuracy (CS)	89.1	3s-HYSP
Action Recognition	NTU RGB+D	Accuracy (CV)	95.2	3s-HYSP
Action Recognition	NTU RGB+D	Accuracy (CS)	86.5	HYSP
Action Recognition	NTU RGB+D	Accuracy (CV)	93.5	HYSP

HYperbolic Self-Paced Learning for Self-Supervised Skeleton-based Action Representations

Abstract

Results

Related Papers

HYperbolic Self-Paced Learning for Self-Supervised Skeleton-based Action Representations

Abstract

Results

Related Papers