NTU RGB+D 120

VideosCustom (research-only)

NTU RGB+D 120 is a large-scale dataset for RGB+D human action recognition, which is collected from 106 distinct subjects and contains more than 114 thousand video samples and 8 million frames. This dataset contains 120 different action classes including daily, mutual, and health-related activities.

Source: NTU RGB+D 120: A Large-Scale Benchmark for 3D Human Activity Understanding

Benchmarks

3D Action Recognition/Accuracy (Cross-Subject)3D Action Recognition/Accuracy (Cross-Setup)3D Action Recognition/Ensembled Modalities 3D Action Recognition/GFLOPS per prediction 3D Action Recognition/Accuracy (10 unseen classes)3D Action Recognition/Accuracy (24 unseen classes)3D Action Recognition/Random Split Accuracy 3D Action Recognition/Harmonic Mean (10 unseen classes)3D Action Recognition/Harmonic Mean (24 unseen classes)3D Action Recognition/Random Split Harmonic Mean Action Detection/Accuracy (Cross-Subject)Action Detection/Accuracy (Cross-Setup)Action Detection/Ensembled Modalities Action Detection/GFLOPS per prediction Action Localization/Accuracy (Cross-Subject)Action Localization/Accuracy (Cross-Setup)Action Localization/Ensembled Modalities Action Localization/GFLOPS per prediction Action Localization/Accuracy (10 unseen classes)Action Localization/Accuracy (24 unseen classes)Action Localization/Random Split Accuracy Action Localization/Harmonic Mean (10 unseen classes)Action Localization/Harmonic Mean (24 unseen classes)Action Localization/Random Split Harmonic Mean Action Recognition/Accuracy (Cross-Setup)Action Recognition/Accuracy (Cross-Subject)Action Recognition/Ensembled Modalities Action Recognition/GFLOPS per prediction Action Recognition/Accuracy (10 unseen classes)Action Recognition/Accuracy (24 unseen classes)Action Recognition/Random Split Accuracy Action Recognition/Harmonic Mean (10 unseen classes)Action Recognition/Harmonic Mean (24 unseen classes)Action Recognition/Random Split Harmonic Mean Action Recognition/xsub (%)Action Recognition/xset (%)Action Recognition/Encoder Action Recognition/Classifier Activity Recognition/Accuracy (Cross-Setup)Activity Recognition/Accuracy (Cross-Subject)Activity Recognition/Ensembled Modalities Activity Recognition/GFLOPS per prediction Activity Recognition/Accuracy (10 unseen classes)Activity Recognition/Accuracy (24 unseen classes)Activity Recognition/Random Split Accuracy Activity Recognition/Harmonic Mean (10 unseen classes)Activity Recognition/Harmonic Mean (24 unseen classes)Activity Recognition/Random Split Harmonic Mean Activity Recognition/xsub (%)Activity Recognition/xset (%)Activity Recognition/Encoder Activity Recognition/Classifier Activity Recognition/FID (CS)Activity Recognition/FID (CV)Human Interaction Recognition/Accuracy (Cross-Setup)Human Interaction Recognition/Accuracy (Cross-Subject)Human Interaction Recognition/Accuracy Human action generation/FID (CS)Human action generation/FID (CV)Temporal Action Localization/Accuracy (Cross-Subject)Temporal Action Localization/Accuracy (Cross-Setup)Temporal Action Localization/Ensembled Modalities Temporal Action Localization/GFLOPS per prediction Temporal Action Localization/Accuracy (10 unseen classes)Temporal Action Localization/Accuracy (24 unseen classes)Temporal Action Localization/Random Split Accuracy Temporal Action Localization/Harmonic Mean (10 unseen classes)Temporal Action Localization/Harmonic Mean (24 unseen classes)Temporal Action Localization/Random Split Harmonic Mean Video/Accuracy (Cross-Subject)Video/Accuracy (Cross-Setup)Video/Ensembled Modalities Video/GFLOPS per prediction Video/Accuracy (10 unseen classes)Video/Accuracy (24 unseen classes)Video/Random Split Accuracy Video/Harmonic Mean (10 unseen classes)Video/Harmonic Mean (24 unseen classes)Video/Random Split Harmonic Mean Zero-Shot Learning/Accuracy (Cross-Subject)Zero-Shot Learning/Accuracy (Cross-Setup)Zero-Shot Learning/Ensembled Modalities Zero-Shot Learning/GFLOPS per prediction Zero-Shot Learning/Accuracy (10 unseen classes)Zero-Shot Learning/Accuracy (24 unseen classes)Zero-Shot Learning/Random Split Accuracy Zero-Shot Learning/Harmonic Mean (10 unseen classes)Zero-Shot Learning/Harmonic Mean (24 unseen classes)Zero-Shot Learning/Random Split Harmonic Mean