Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs

Zheng Shou, Dongang Wang, Shih-Fu Chang

2016-01-09CVPR 2016 6Action Classification Action Localization Temporal Localization General Classification Classification Temporal Action Localization

Paper PDF Code(official)

Abstract

We address temporal action localization in untrimmed long videos. This is important because videos in real applications are usually unconstrained and contain multiple action instances plus video content of background scenes or other activities. To address this challenging issue, we exploit the effectiveness of deep networks in temporal action localization via three segment-based 3D ConvNets: (1) a proposal network identifies candidate segments in a long video that may contain actions; (2) a classification network learns one-vs-all action classification model to serve as initialization for the localization network; and (3) a localization network fine-tunes on the learned classification network to localize each action instance. We propose a novel loss function for the localization network to explicitly consider temporal overlap and therefore achieve high temporal localization accuracy. Only the proposal network and the localization network are used during prediction. On two large-scale benchmarks, our approach achieves significantly superior performances compared with other state-of-the-art systems: mAP increases from 1.7% to 7.4% on MEXaction2 and increases from 15.0% to 19.0% on THUMOS 2014, when the overlap threshold for evaluation is set to 0.5.

Results

Task	Dataset	Metric	Value	Model
Video	MEXaction2	mAP	7.4	S-CNN
Video	THUMOS’14	mAP IOU@0.1	47.7	S-CNN
Video	THUMOS’14	mAP IOU@0.2	43.5	S-CNN
Video	THUMOS’14	mAP IOU@0.3	36.3	S-CNN
Video	THUMOS’14	mAP IOU@0.4	28.7	S-CNN
Video	THUMOS’14	mAP IOU@0.5	19	S-CNN
Temporal Action Localization	MEXaction2	mAP	7.4	S-CNN
Temporal Action Localization	THUMOS’14	mAP IOU@0.1	47.7	S-CNN
Temporal Action Localization	THUMOS’14	mAP IOU@0.2	43.5	S-CNN
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	36.3	S-CNN
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	28.7	S-CNN
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	19	S-CNN
Zero-Shot Learning	MEXaction2	mAP	7.4	S-CNN
Zero-Shot Learning	THUMOS’14	mAP IOU@0.1	47.7	S-CNN
Zero-Shot Learning	THUMOS’14	mAP IOU@0.2	43.5	S-CNN
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	36.3	S-CNN
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	28.7	S-CNN
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	19	S-CNN
Activity Recognition	THUMOS’14	mAP@0.1	47.7	Shou et. al.
Activity Recognition	THUMOS’14	mAP@0.2	43.5	Shou et. al.
Activity Recognition	THUMOS’14	mAP@0.3	36.3	Shou et. al.
Activity Recognition	THUMOS’14	mAP@0.4	28.7	Shou et. al.
Activity Recognition	THUMOS’14	mAP@0.5	19	Shou et. al.
Action Localization	MEXaction2	mAP	7.4	S-CNN
Action Localization	THUMOS’14	mAP IOU@0.1	47.7	S-CNN
Action Localization	THUMOS’14	mAP IOU@0.2	43.5	S-CNN
Action Localization	THUMOS’14	mAP IOU@0.3	36.3	S-CNN
Action Localization	THUMOS’14	mAP IOU@0.4	28.7	S-CNN
Action Localization	THUMOS’14	mAP IOU@0.5	19	S-CNN
Action Recognition	THUMOS’14	mAP@0.1	47.7	Shou et. al.
Action Recognition	THUMOS’14	mAP@0.2	43.5	Shou et. al.
Action Recognition	THUMOS’14	mAP@0.3	36.3	Shou et. al.
Action Recognition	THUMOS’14	mAP@0.4	28.7	Shou et. al.
Action Recognition	THUMOS’14	mAP@0.5	19	Shou et. al.

Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs

Abstract

Results

Related Papers

Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs

Abstract

Results

Related Papers