Shap-Mix: Shapley Value Guided Mixing for Long-Tailed Skeleton Based Action Recognition

Jiahang Zhang, Lilang Lin, Jiaying Liu

2024-07-17Skeleton Based Action Recognition Data Augmentation Saliency Prediction Action Recognition

Abstract

In real-world scenarios, human actions often fall into a long-tailed distribution. It makes the existing skeleton-based action recognition works, which are mostly designed based on balanced datasets, suffer from a sharp performance degradation. Recently, many efforts have been madeto image/video long-tailed learning. However, directly applying them to skeleton data can be sub-optimal due to the lack of consideration of the crucial spatial-temporal motion patterns, especially for some modality-specific methodologies such as data augmentation. To this end, considering the crucial role of the body parts in the spatially concentrated human actions, we attend to the mixing augmentations and propose a novel method, Shap-Mix, which improves long-tailed learning by mining representative motion patterns for tail categories. Specifically, we first develop an effective spatial-temporal mixing strategy for the skeleton to boost representation quality. Then, the employed saliency guidance method is presented, consisting of the saliency estimation based on Shapley value and a tail-aware mixing policy. It preserves the salient motion parts of minority classes in mixed data, explicitly establishing the relationships between crucial body structure cues and high-level semantics. Extensive experiments on three large-scale skeleton datasets show our remarkable performance improvement under both long-tailed and balanced settings. Our project is publicly available at: https://jhang2020.github.io/Projects/Shap-Mix/Shap-Mix.html.

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Video	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Video	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Video	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Video	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Temporal Action Localization	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Temporal Action Localization	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Zero-Shot Learning	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Zero-Shot Learning	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Activity Recognition	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Activity Recognition	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Activity Recognition	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Activity Recognition	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Action Localization	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Action Localization	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Action Localization	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Action Localization	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Action Detection	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Action Detection	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Action Detection	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Action Detection	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
3D Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
3D Action Recognition	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
3D Action Recognition	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
3D Action Recognition	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Action Recognition	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Action Recognition	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Action Recognition	NTU RGB+D	Ensembled Modalities	4	Shap-Mix

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Video	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Video	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Video	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Video	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Video	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Temporal Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Temporal Action Localization	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Temporal Action Localization	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Temporal Action Localization	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Temporal Action Localization	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Zero-Shot Learning	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Zero-Shot Learning	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Zero-Shot Learning	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Zero-Shot Learning	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Zero-Shot Learning	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Activity Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Activity Recognition	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Activity Recognition	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Activity Recognition	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Activity Recognition	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Action Localization	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Action Localization	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Action Localization	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Action Localization	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Action Localization	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Action Localization	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Action Detection	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Action Detection	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Action Detection	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Action Detection	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Action Detection	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Action Detection	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
3D Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
3D Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
3D Action Recognition	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
3D Action Recognition	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
3D Action Recognition	NTU RGB+D	Ensembled Modalities	4	Shap-Mix
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Setup)	91.7	Shap-Mix
Action Recognition	NTU RGB+D 120	Accuracy (Cross-Subject)	90.4	Shap-Mix
Action Recognition	NTU RGB+D 120	Ensembled Modalities	4	Shap-Mix
Action Recognition	NTU RGB+D	Accuracy (CS)	93.7	Shap-Mix
Action Recognition	NTU RGB+D	Accuracy (CV)	97.1	Shap-Mix
Action Recognition	NTU RGB+D	Ensembled Modalities	4	Shap-Mix

Shap-Mix: Shapley Value Guided Mixing for Long-Tailed Skeleton Based Action Recognition

Abstract

Results

Related Papers

Shap-Mix: Shapley Value Guided Mixing for Long-Tailed Skeleton Based Action Recognition

Abstract

Results

Related Papers