Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Joao Carreira, Andrew Zisserman

2017-05-22CVPR 2017 7Action Classification Skeleton Based Action Recognition General Classification Action Recognition Video Object Tracking

Paper PDF Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code

Abstract

The paucity of videos in current action classification datasets (UCF-101 and HMDB-51) has made it difficult to identify good video architectures, as most methods obtain similar performance on existing small-scale benchmarks. This paper re-evaluates state-of-the-art architectures in light of the new Kinetics Human Action Video dataset. Kinetics has two orders of magnitude more data, with 400 human action classes and over 400 clips per class, and is collected from realistic, challenging YouTube videos. We provide an analysis on how current architectures fare on the task of action classification on this dataset and how much performance improves on the smaller benchmark datasets after pre-training on Kinetics. We also introduce a new Two-Stream Inflated 3D ConvNet (I3D) that is based on 2D ConvNet inflation: filters and pooling kernels of very deep image classification ConvNets are expanded into 3D, making it possible to learn seamless spatio-temporal feature extractors from video while leveraging successful ImageNet architecture designs and even their parameters. We show that, after pre-training on Kinetics, I3D models considerably improve upon the state-of-the-art in action classification, reaching 80.9% on HMDB-51 and 98.0% on UCF-101.

Results

Task	Dataset	Metric	Value	Model
Video	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Video	Charades	MAP	32.9	I3D
Video	Toyota Smarthome dataset	CS	53.4	I3D
Video	Toyota Smarthome dataset	CV1	34.9	I3D
Video	Toyota Smarthome dataset	CV2	45.1	I3D
Video	Kinetics-400	Acc@1	71.1	I3D
Video	Kinetics-400	Acc@5	89.3	I3D
Video	CATER	L1	1.2	I3D-50 + LSTM
Video	CATER	Top 1 Accuracy	60.2	I3D-50 + LSTM
Video	CATER	Top 5 Accuracy	81.8	I3D-50 + LSTM
Temporal Action Localization	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Zero-Shot Learning	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Activity Recognition	HMDB-51	Average accuracy of 3 splits	80.9	Two-stream I3D
Activity Recognition	HMDB-51	Average accuracy of 3 splits	80.7	Two-Stream I3D (Imagenet+Kinetics pre-training)
Activity Recognition	HMDB-51	Average accuracy of 3 splits	77.3	Flow-I3D (Kinetics pre-training)
Activity Recognition	HMDB-51	Average accuracy of 3 splits	77.1	Flow-I3D (Imagenet+Kinetics pre-training)
Activity Recognition	HMDB-51	Average accuracy of 3 splits	74.8	RGB-I3D (Imagenet+Kinetics pre-training)
Activity Recognition	HMDB-51	Average accuracy of 3 splits	74.3	RGB-I3D (Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	98	Two-Stream I3D (Imagenet+Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	97.8	Two-Stream I3D (Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	96.7	Flow-I3D (Imagenet+Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	96.5	Flow-I3D (Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	95.6	RGB-I3D (Imagenet+Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	95.1	RGB-I3D (Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	93.4	Two-stream I3D
Activity Recognition	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Action Localization	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Hand	EgoGesture	Accuracy	92.78	I3D
Hand	VIVA Hand Gestures Dataset	Accuracy	83.1	I3D
Action Detection	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Object Tracking	CATER	L1	1.2	I3D-50 + LSTM
Object Tracking	CATER	Top 1 Accuracy	60.2	I3D-50 + LSTM
Object Tracking	CATER	Top 5 Accuracy	81.8	I3D-50 + LSTM
Gesture Recognition	EgoGesture	Accuracy	92.78	I3D
Gesture Recognition	VIVA Hand Gestures Dataset	Accuracy	83.1	I3D
3D Action Recognition	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Action Recognition	HMDB-51	Average accuracy of 3 splits	80.9	Two-stream I3D
Action Recognition	HMDB-51	Average accuracy of 3 splits	80.7	Two-Stream I3D (Imagenet+Kinetics pre-training)
Action Recognition	HMDB-51	Average accuracy of 3 splits	77.3	Flow-I3D (Kinetics pre-training)
Action Recognition	HMDB-51	Average accuracy of 3 splits	77.1	Flow-I3D (Imagenet+Kinetics pre-training)
Action Recognition	HMDB-51	Average accuracy of 3 splits	74.8	RGB-I3D (Imagenet+Kinetics pre-training)
Action Recognition	HMDB-51	Average accuracy of 3 splits	74.3	RGB-I3D (Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	98	Two-Stream I3D (Imagenet+Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	97.8	Two-Stream I3D (Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	96.7	Flow-I3D (Imagenet+Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	96.5	Flow-I3D (Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	95.6	RGB-I3D (Imagenet+Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	95.1	RGB-I3D (Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	93.4	Two-stream I3D
Action Recognition	J-HMDB	Accuracy (RGB+pose)	84.1	I3D

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Video	Charades	MAP	32.9	I3D
Video	Toyota Smarthome dataset	CS	53.4	I3D
Video	Toyota Smarthome dataset	CV1	34.9	I3D
Video	Toyota Smarthome dataset	CV2	45.1	I3D
Video	Kinetics-400	Acc@1	71.1	I3D
Video	Kinetics-400	Acc@5	89.3	I3D
Video	CATER	L1	1.2	I3D-50 + LSTM
Video	CATER	Top 1 Accuracy	60.2	I3D-50 + LSTM
Video	CATER	Top 5 Accuracy	81.8	I3D-50 + LSTM
Temporal Action Localization	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Zero-Shot Learning	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Activity Recognition	HMDB-51	Average accuracy of 3 splits	80.9	Two-stream I3D
Activity Recognition	HMDB-51	Average accuracy of 3 splits	80.7	Two-Stream I3D (Imagenet+Kinetics pre-training)
Activity Recognition	HMDB-51	Average accuracy of 3 splits	77.3	Flow-I3D (Kinetics pre-training)
Activity Recognition	HMDB-51	Average accuracy of 3 splits	77.1	Flow-I3D (Imagenet+Kinetics pre-training)
Activity Recognition	HMDB-51	Average accuracy of 3 splits	74.8	RGB-I3D (Imagenet+Kinetics pre-training)
Activity Recognition	HMDB-51	Average accuracy of 3 splits	74.3	RGB-I3D (Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	98	Two-Stream I3D (Imagenet+Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	97.8	Two-Stream I3D (Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	96.7	Flow-I3D (Imagenet+Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	96.5	Flow-I3D (Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	95.6	RGB-I3D (Imagenet+Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	95.1	RGB-I3D (Kinetics pre-training)
Activity Recognition	UCF101	3-fold Accuracy	93.4	Two-stream I3D
Activity Recognition	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Action Localization	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Hand	EgoGesture	Accuracy	92.78	I3D
Hand	VIVA Hand Gestures Dataset	Accuracy	83.1	I3D
Action Detection	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Object Tracking	CATER	L1	1.2	I3D-50 + LSTM
Object Tracking	CATER	Top 1 Accuracy	60.2	I3D-50 + LSTM
Object Tracking	CATER	Top 5 Accuracy	81.8	I3D-50 + LSTM
Gesture Recognition	EgoGesture	Accuracy	92.78	I3D
Gesture Recognition	VIVA Hand Gestures Dataset	Accuracy	83.1	I3D
3D Action Recognition	J-HMDB	Accuracy (RGB+pose)	84.1	I3D
Action Recognition	HMDB-51	Average accuracy of 3 splits	80.9	Two-stream I3D
Action Recognition	HMDB-51	Average accuracy of 3 splits	80.7	Two-Stream I3D (Imagenet+Kinetics pre-training)
Action Recognition	HMDB-51	Average accuracy of 3 splits	77.3	Flow-I3D (Kinetics pre-training)
Action Recognition	HMDB-51	Average accuracy of 3 splits	77.1	Flow-I3D (Imagenet+Kinetics pre-training)
Action Recognition	HMDB-51	Average accuracy of 3 splits	74.8	RGB-I3D (Imagenet+Kinetics pre-training)
Action Recognition	HMDB-51	Average accuracy of 3 splits	74.3	RGB-I3D (Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	98	Two-Stream I3D (Imagenet+Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	97.8	Two-Stream I3D (Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	96.7	Flow-I3D (Imagenet+Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	96.5	Flow-I3D (Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	95.6	RGB-I3D (Imagenet+Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	95.1	RGB-I3D (Kinetics pre-training)
Action Recognition	UCF101	3-fold Accuracy	93.4	Two-stream I3D
Action Recognition	J-HMDB	Accuracy (RGB+pose)	84.1	I3D

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Abstract

Results

Related Papers

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Abstract

Results

Related Papers