An Empirical Study of End-to-End Temporal Action Detection

Xiaolong Liu, Song Bai, Xiang Bai

2022-04-06CVPR 2022 1Action Detection Action Classification Video Understanding Temporal Action Localization

Abstract

Temporal action detection (TAD) is an important yet challenging task in video understanding. It aims to simultaneously predict the semantic label and the temporal interval of every action instance in an untrimmed video. Rather than end-to-end learning, most existing methods adopt a head-only learning paradigm, where the video encoder is pre-trained for action classification, and only the detection head upon the encoder is optimized for TAD. The effect of end-to-end learning is not systematically evaluated. Besides, there lacks an in-depth study on the efficiency-accuracy trade-off in end-to-end TAD. In this paper, we present an empirical study of end-to-end temporal action detection. We validate the advantage of end-to-end learning over head-only learning and observe up to 11\% performance improvement. Besides, we study the effects of multiple design choices that affect the TAD performance and speed, including detection head, video encoder, and resolution of input videos. Based on the findings, we build a mid-resolution baseline detector, which achieves the state-of-the-art performance of end-to-end methods while running more than 4$\times$ faster. We hope that this paper can serve as a guide for end-to-end learning and inspire future research in this field. Code and models are available at \url{https://github.com/xlliu7/E2E-TAD}.

Results

Task	Dataset	Metric	Value	Model
Video	ActivityNet-1.3	mAP	35.1	E2E-TAD (SlowFast R50+TadTR)
Video	ActivityNet-1.3	mAP IOU@0.5	50.47	E2E-TAD (SlowFast R50+TadTR)
Video	ActivityNet-1.3	mAP IOU@0.75	35.99	E2E-TAD (SlowFast R50+TadTR)
Video	ActivityNet-1.3	mAP IOU@0.95	10.83	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	Avg mAP (0.3:0.7)	54.2	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.3	69.4	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.4	64.3	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.5	56	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.6	46.4	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.7	34.9	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	ActivityNet-1.3	mAP	35.1	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.5	50.47	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.75	35.99	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.95	10.83	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	54.2	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	69.4	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	64.3	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	56	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	46.4	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	34.9	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	ActivityNet-1.3	mAP	35.1	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.5	50.47	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.75	35.99	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.95	10.83	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	54.2	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	69.4	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	64.3	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	56	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	46.4	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	34.9	E2E-TAD (SlowFast R50+TadTR)
Action Localization	ActivityNet-1.3	mAP	35.1	E2E-TAD (SlowFast R50+TadTR)
Action Localization	ActivityNet-1.3	mAP IOU@0.5	50.47	E2E-TAD (SlowFast R50+TadTR)
Action Localization	ActivityNet-1.3	mAP IOU@0.75	35.99	E2E-TAD (SlowFast R50+TadTR)
Action Localization	ActivityNet-1.3	mAP IOU@0.95	10.83	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	54.2	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.3	69.4	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.4	64.3	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.5	56	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.6	46.4	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.7	34.9	E2E-TAD (SlowFast R50+TadTR)

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	ActivityNet-1.3	mAP	35.1	E2E-TAD (SlowFast R50+TadTR)
Video	ActivityNet-1.3	mAP IOU@0.5	50.47	E2E-TAD (SlowFast R50+TadTR)
Video	ActivityNet-1.3	mAP IOU@0.75	35.99	E2E-TAD (SlowFast R50+TadTR)
Video	ActivityNet-1.3	mAP IOU@0.95	10.83	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	Avg mAP (0.3:0.7)	54.2	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.3	69.4	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.4	64.3	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.5	56	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.6	46.4	E2E-TAD (SlowFast R50+TadTR)
Video	THUMOS’14	mAP IOU@0.7	34.9	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	ActivityNet-1.3	mAP	35.1	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.5	50.47	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.75	35.99	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.95	10.83	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	54.2	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	69.4	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	64.3	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	56	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	46.4	E2E-TAD (SlowFast R50+TadTR)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	34.9	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	ActivityNet-1.3	mAP	35.1	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.5	50.47	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.75	35.99	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.95	10.83	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	54.2	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	69.4	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	64.3	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	56	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	46.4	E2E-TAD (SlowFast R50+TadTR)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	34.9	E2E-TAD (SlowFast R50+TadTR)
Action Localization	ActivityNet-1.3	mAP	35.1	E2E-TAD (SlowFast R50+TadTR)
Action Localization	ActivityNet-1.3	mAP IOU@0.5	50.47	E2E-TAD (SlowFast R50+TadTR)
Action Localization	ActivityNet-1.3	mAP IOU@0.75	35.99	E2E-TAD (SlowFast R50+TadTR)
Action Localization	ActivityNet-1.3	mAP IOU@0.95	10.83	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	54.2	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.3	69.4	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.4	64.3	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.5	56	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.6	46.4	E2E-TAD (SlowFast R50+TadTR)
Action Localization	THUMOS’14	mAP IOU@0.7	34.9	E2E-TAD (SlowFast R50+TadTR)

An Empirical Study of End-to-End Temporal Action Detection

Abstract

Results

Related Papers

An Empirical Study of End-to-End Temporal Action Detection

Abstract

Results

Related Papers