Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Datasets/NTU RGB+D

NTU RGB+D

RGB-DVideosCustom (research-only, non-commercial, attribution)Introduced 2016-01-01

NTU RGB+D is a large-scale dataset for RGB-D human action recognition. It involves 56,880 samples of 60 action classes collected from 40 subjects. The actions can be generally divided into three categories: 40 daily actions (e.g., drinking, eating, reading), nine health-related actions (e.g., sneezing, staggering, falling down), and 11 mutual actions (e.g., punching, kicking, hugging). These actions take place under 17 different scene conditions corresponding to 17 video sequences (i.e., S001–S017). The actions were captured using three cameras with different horizontal imaging viewpoints, namely, −45∘,0∘, and +45∘. Multi-modality information is provided for action characterization, including depth maps, 3D skeleton joint position, RGB frames, and infrared sequences. The performance evaluation is performed by a cross-subject test that split the 40 subjects into training and test groups, and by a cross-view test that employed one camera (+45∘) for testing, and the other two cameras for training.

Source: Action Recognition for Depth Video using Multi-view Dynamic Images

Benchmarks

3D Action Recognition/Cross Subject Accuracy 3D Action Recognition/Cross View Accuracy 3D Action Recognition/Accuracy (CS)3D Action Recognition/Accuracy (CV)3D Action Recognition/Ensembled Modalities 3D Action Recognition/GFLOPs per pred 3D Action Recognition/Accuracy (12 unseen classes)3D Action Recognition/Accuracy (5 unseen classes)3D Action Recognition/Random Split Accuracy 3D Action Recognition/Harmonic Mean (5 unseen classes)3D Action Recognition/Harmonic Mean (12 unseen classes)3D Action Recognition/Random Split Harmonic Mean Action Detection/Accuracy (CS)Action Detection/Accuracy (CV)Action Detection/Ensembled Modalities Action Detection/GFLOPs per pred Action Localization/Cross Subject Accuracy Action Localization/Cross View Accuracy Action Localization/Accuracy (CS)Action Localization/Accuracy (CV)Action Localization/Ensembled Modalities Action Localization/GFLOPs per pred Action Localization/Accuracy (12 unseen classes)Action Localization/Accuracy (5 unseen classes)Action Localization/Random Split Accuracy Action Localization/Harmonic Mean (5 unseen classes)Action Localization/Harmonic Mean (12 unseen classes)Action Localization/Random Split Harmonic Mean Action Recognition/Accuracy (CS)Action Recognition/Accuracy (CV)Action Recognition/Cross Subject Accuracy Action Recognition/Cross View Accuracy Action Recognition/Ensembled Modalities Action Recognition/GFLOPs per pred Action Recognition/Accuracy (12 unseen classes)Action Recognition/Accuracy (5 unseen classes)Action Recognition/Random Split Accuracy Action Recognition/Harmonic Mean (5 unseen classes)Action Recognition/Harmonic Mean (12 unseen classes)Action Recognition/Random Split Harmonic Mean Action Recognition In Videos/Accuracy (CS)Activity Recognition/Accuracy (CS)Activity Recognition/Accuracy (CV)Activity Recognition/Cross Subject Accuracy Activity Recognition/Cross View Accuracy Activity Recognition/Ensembled Modalities Activity Recognition/GFLOPs per pred Activity Recognition/Accuracy (12 unseen classes)Activity Recognition/Accuracy (5 unseen classes)Activity Recognition/Random Split Accuracy Activity Recognition/Harmonic Mean (5 unseen classes)Activity Recognition/Harmonic Mean (12 unseen classes)Activity Recognition/Random Split Harmonic Mean Activity Recognition/FID (CS)Activity Recognition/FID (CV)Human Interaction Recognition/Accuracy (Cross-Subject)Human Interaction Recognition/Accuracy (Cross-View)Human action generation/FID (CS)Human action generation/FID (CV)Temporal Action Localization/Cross Subject Accuracy Temporal Action Localization/Cross View Accuracy Temporal Action Localization/Accuracy (CS)Temporal Action Localization/Accuracy (CV)Temporal Action Localization/Ensembled Modalities Temporal Action Localization/GFLOPs per pred Temporal Action Localization/Accuracy (12 unseen classes)Temporal Action Localization/Accuracy (5 unseen classes)Temporal Action Localization/Random Split Accuracy Temporal Action Localization/Harmonic Mean (5 unseen classes)Temporal Action Localization/Harmonic Mean (12 unseen classes)Temporal Action Localization/Random Split Harmonic Mean Video/Cross Subject Accuracy Video/Cross View Accuracy Video/Accuracy (CS)Video/Accuracy (CV)Video/Ensembled Modalities Video/GFLOPs per pred Video/Accuracy (12 unseen classes)Video/Accuracy (5 unseen classes)Video/Random Split Accuracy Video/Harmonic Mean (5 unseen classes)Video/Harmonic Mean (12 unseen classes)Video/Random Split Harmonic Mean Zero-Shot Learning/Cross Subject Accuracy Zero-Shot Learning/Cross View Accuracy Zero-Shot Learning/Accuracy (CS)Zero-Shot Learning/Accuracy (CV)Zero-Shot Learning/Ensembled Modalities Zero-Shot Learning/GFLOPs per pred Zero-Shot Learning/Accuracy (12 unseen classes)Zero-Shot Learning/Accuracy (5 unseen classes)Zero-Shot Learning/Random Split Accuracy Zero-Shot Learning/Harmonic Mean (5 unseen classes)Zero-Shot Learning/Harmonic Mean (12 unseen classes)Zero-Shot Learning/Random Split Harmonic Mean

Related Benchmarks

NTU RGB+D 120/3D Action Recognition/Accuracy (10 unseen classes)NTU RGB+D 120/3D Action Recognition/Accuracy (24 unseen classes)NTU RGB+D 120/3D Action Recognition/Accuracy (Cross-Setup)NTU RGB+D 120/3D Action Recognition/Accuracy (Cross-Subject)NTU RGB+D 120/3D Action Recognition/Ensembled Modalities NTU RGB+D 120/3D Action Recognition/GFLOPS per prediction NTU RGB+D 120/3D Action Recognition/Harmonic Mean (10 unseen classes)NTU RGB+D 120/3D Action Recognition/Harmonic Mean (24 unseen classes)NTU RGB+D 120/3D Action Recognition/Random Split Accuracy NTU RGB+D 120/3D Action Recognition/Random Split Harmonic Mean NTU RGB+D 120/Action Detection/Accuracy (Cross-Setup)NTU RGB+D 120/Action Detection/Accuracy (Cross-Subject)NTU RGB+D 120/Action Detection/Ensembled Modalities NTU RGB+D 120/Action Detection/GFLOPS per prediction NTU RGB+D 120/Action Localization/Accuracy (10 unseen classes)NTU RGB+D 120/Action Localization/Accuracy (24 unseen classes)NTU RGB+D 120/Action Localization/Accuracy (Cross-Setup)NTU RGB+D 120/Action Localization/Accuracy (Cross-Subject)NTU RGB+D 120/Action Localization/Ensembled Modalities NTU RGB+D 120/Action Localization/GFLOPS per prediction NTU RGB+D 120/Action Localization/Harmonic Mean (10 unseen classes)NTU RGB+D 120/Action Localization/Harmonic Mean (24 unseen classes)NTU RGB+D 120/Action Localization/Random Split Accuracy NTU RGB+D 120/Action Localization/Random Split Harmonic Mean NTU RGB+D 120/Action Recognition/Accuracy (10 unseen classes)NTU RGB+D 120/Action Recognition/Accuracy (24 unseen classes)NTU RGB+D 120/Action Recognition/Accuracy (Cross-Setup)NTU RGB+D 120/Action Recognition/Accuracy (Cross-Subject)NTU RGB+D 120/Action Recognition/Classifier NTU RGB+D 120/Action Recognition/Encoder NTU RGB+D 120/Action Recognition/Ensembled Modalities NTU RGB+D 120/Action Recognition/GFLOPS per prediction NTU RGB+D 120/Action Recognition/Harmonic Mean (10 unseen classes)NTU RGB+D 120/Action Recognition/Harmonic Mean (24 unseen classes)NTU RGB+D 120/Action Recognition/Random Split Accuracy NTU RGB+D 120/Action Recognition/Random Split Harmonic Mean NTU RGB+D 120/Action Recognition/xset (%)NTU RGB+D 120/Action Recognition/xsub (%)NTU RGB+D 120/Activity Recognition/Accuracy (10 unseen classes)NTU RGB+D 120/Activity Recognition/Accuracy (24 unseen classes)NTU RGB+D 120/Activity Recognition/Accuracy (Cross-Setup)NTU RGB+D 120/Activity Recognition/Accuracy (Cross-Subject)NTU RGB+D 120/Activity Recognition/Classifier NTU RGB+D 120/Activity Recognition/Encoder NTU RGB+D 120/Activity Recognition/Ensembled Modalities NTU RGB+D 120/Activity Recognition/FID (CS)NTU RGB+D 120/Activity Recognition/FID (CV)NTU RGB+D 120/Activity Recognition/GFLOPS per prediction NTU RGB+D 120/Activity Recognition/Harmonic Mean (10 unseen classes)NTU RGB+D 120/Activity Recognition/Harmonic Mean (24 unseen classes)NTU RGB+D 120/Activity Recognition/Random Split Accuracy NTU RGB+D 120/Activity Recognition/Random Split Harmonic Mean NTU RGB+D 120/Activity Recognition/xset (%)NTU RGB+D 120/Activity Recognition/xsub (%)NTU RGB+D 120/Human Interaction Recognition/Accuracy NTU RGB+D 120/Human Interaction Recognition/Accuracy (Cross-Setup)NTU RGB+D 120/Human Interaction Recognition/Accuracy (Cross-Subject)NTU RGB+D 120/Human action generation/FID (CS)NTU RGB+D 120/Human action generation/FID (CV)NTU RGB+D 120/Temporal Action Localization/Accuracy (10 unseen classes)NTU RGB+D 120/Temporal Action Localization/Accuracy (24 unseen classes)NTU RGB+D 120/Temporal Action Localization/Accuracy (Cross-Setup)NTU RGB+D 120/Temporal Action Localization/Accuracy (Cross-Subject)NTU RGB+D 120/Temporal Action Localization/Ensembled Modalities NTU RGB+D 120/Temporal Action Localization/GFLOPS per prediction NTU RGB+D 120/Temporal Action Localization/Harmonic Mean (10 unseen classes)NTU RGB+D 120/Temporal Action Localization/Harmonic Mean (24 unseen classes)NTU RGB+D 120/Temporal Action Localization/Random Split Accuracy NTU RGB+D 120/Temporal Action Localization/Random Split Harmonic Mean NTU RGB+D 120/Video/Accuracy (10 unseen classes)NTU RGB+D 120/Video/Accuracy (24 unseen classes)NTU RGB+D 120/Video/Accuracy (Cross-Setup)NTU RGB+D 120/Video/Accuracy (Cross-Subject)NTU RGB+D 120/Video/Ensembled Modalities NTU RGB+D 120/Video/GFLOPS per prediction NTU RGB+D 120/Video/Harmonic Mean (10 unseen classes)NTU RGB+D 120/Video/Harmonic Mean (24 unseen classes)NTU RGB+D 120/Video/Random Split Accuracy NTU RGB+D 120/Video/Random Split Harmonic Mean NTU RGB+D 120/Zero-Shot Learning/Accuracy (10 unseen classes)NTU RGB+D 120/Zero-Shot Learning/Accuracy (24 unseen classes)NTU RGB+D 120/Zero-Shot Learning/Accuracy (Cross-Setup)NTU RGB+D 120/Zero-Shot Learning/Accuracy (Cross-Subject)NTU RGB+D 120/Zero-Shot Learning/Ensembled Modalities NTU RGB+D 120/Zero-Shot Learning/GFLOPS per prediction NTU RGB+D 120/Zero-Shot Learning/Harmonic Mean (10 unseen classes)NTU RGB+D 120/Zero-Shot Learning/Harmonic Mean (24 unseen classes)NTU RGB+D 120/Zero-Shot Learning/Random Split Accuracy NTU RGB+D 120/Zero-Shot Learning/Random Split Harmonic Mean NTU RGB+D 2D/Activity Recognition/MMDa (CS)NTU RGB+D 2D/Activity Recognition/MMDa (CV)NTU RGB+D 2D/Activity Recognition/MMDs (CS)NTU RGB+D 2D/Activity Recognition/MMDs (CV)NTU RGB+D 2D/Human action generation/MMDa (CS)NTU RGB+D 2D/Human action generation/MMDa (CV)NTU RGB+D 2D/Human action generation/MMDs (CS)NTU RGB+D 2D/Human action generation/MMDs (CV)

Statistics

Papers: 476
Benchmarks: 95

Links

Tasks

3D Action Recognition Action Detection Action Localization Action Recognition Action Recognition In Videos Activity Recognition Early Action Prediction Generalized Zero Shot skeletal action recognition Human Interaction Recognition Human action generation Pose Prediction Self-supervised Skeleton-based Action Recognition Skeleton Based Action Recognition Temporal Action Localization Unsupervised Skeleton Based Action Recognition Video Zero Shot Skeletal Action Recognition Zero-Shot Learning