End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

Shuming Liu, Chen-Lin Zhang, Chen Zhao, Bernard Ghanem

2023-11-28CVPR 2024 1Action Detection Temporal Action Localization

Abstract

Recently, temporal action detection (TAD) has seen significant performance improvement with end-to-end training. However, due to the memory bottleneck, only models with limited scales and limited data volumes can afford end-to-end training, which inevitably restricts TAD performance. In this paper, we reduce the memory consumption for end-to-end training, and manage to scale up the TAD backbone to 1 billion parameters and the input video to 1,536 frames, leading to significant detection performance. The key to our approach lies in our proposed temporal-informative adapter (TIA), which is a novel lightweight module that reduces training memory. Using TIA, we free the humongous backbone from learning to adapt to the TAD task by only updating the parameters in TIA. TIA also leads to better TAD representation by temporally aggregating context from adjacent frames throughout the backbone. We evaluate our model across four representative datasets. Owing to our efficient design, we are able to train end-to-end on VideoMAEv2-giant and achieve 75.4% mAP on THUMOS14, being the first end-to-end model to outperform the best feature-based methods. Code is available at https://github.com/sming256/AdaTAD.

Results

Task	Dataset	Metric	Value	Model
Video	ActivityNet-1.3	mAP	41.93	AdaTAD (VideoMAEv2-giant)
Video	ActivityNet-1.3	mAP IOU@0.5	61.72	AdaTAD (VideoMAEv2-giant)
Video	ActivityNet-1.3	mAP IOU@0.75	43.35	AdaTAD (VideoMAEv2-giant)
Video	ActivityNet-1.3	mAP IOU@0.95	10.85	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	Avg mAP (0.3:0.7)	76.9	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.3	89.7	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.4	86.7	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.5	80.9	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.6	71	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.7	56.1	AdaTAD (VideoMAEv2-giant)
Video	EPIC-KITCHENS-100	Avg mAP (0.1-0.5)	29.3	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.1	33.1	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.2	32.2	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.3	30.4	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.4	27.5	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.5	23.1	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	ActivityNet-1.3	mAP	41.93	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.5	61.72	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.75	43.35	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.95	10.85	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	76.9	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	89.7	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	86.7	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	80.9	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	71	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	56.1	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	EPIC-KITCHENS-100	Avg mAP (0.1-0.5)	29.3	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.1	33.1	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.2	32.2	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.3	30.4	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.4	27.5	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.5	23.1	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	ActivityNet-1.3	mAP	41.93	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.5	61.72	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.75	43.35	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.95	10.85	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	76.9	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	89.7	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	86.7	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	80.9	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	71	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	56.1	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	EPIC-KITCHENS-100	Avg mAP (0.1-0.5)	29.3	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.1	33.1	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.2	32.2	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.3	30.4	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.4	27.5	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.5	23.1	AdaTAD (verb, VideoMAE-L)
Action Localization	ActivityNet-1.3	mAP	41.93	AdaTAD (VideoMAEv2-giant)
Action Localization	ActivityNet-1.3	mAP IOU@0.5	61.72	AdaTAD (VideoMAEv2-giant)
Action Localization	ActivityNet-1.3	mAP IOU@0.75	43.35	AdaTAD (VideoMAEv2-giant)
Action Localization	ActivityNet-1.3	mAP IOU@0.95	10.85	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	76.9	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.3	89.7	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.4	86.7	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.5	80.9	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.6	71	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.7	56.1	AdaTAD (VideoMAEv2-giant)
Action Localization	EPIC-KITCHENS-100	Avg mAP (0.1-0.5)	29.3	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.1	33.1	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.2	32.2	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.3	30.4	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.4	27.5	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.5	23.1	AdaTAD (verb, VideoMAE-L)

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	ActivityNet-1.3	mAP	41.93	AdaTAD (VideoMAEv2-giant)
Video	ActivityNet-1.3	mAP IOU@0.5	61.72	AdaTAD (VideoMAEv2-giant)
Video	ActivityNet-1.3	mAP IOU@0.75	43.35	AdaTAD (VideoMAEv2-giant)
Video	ActivityNet-1.3	mAP IOU@0.95	10.85	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	Avg mAP (0.3:0.7)	76.9	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.3	89.7	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.4	86.7	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.5	80.9	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.6	71	AdaTAD (VideoMAEv2-giant)
Video	THUMOS’14	mAP IOU@0.7	56.1	AdaTAD (VideoMAEv2-giant)
Video	EPIC-KITCHENS-100	Avg mAP (0.1-0.5)	29.3	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.1	33.1	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.2	32.2	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.3	30.4	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.4	27.5	AdaTAD (verb, VideoMAE-L)
Video	EPIC-KITCHENS-100	mAP IOU@0.5	23.1	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	ActivityNet-1.3	mAP	41.93	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.5	61.72	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.75	43.35	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	ActivityNet-1.3	mAP IOU@0.95	10.85	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	76.9	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	89.7	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	86.7	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	80.9	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	71	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	56.1	AdaTAD (VideoMAEv2-giant)
Temporal Action Localization	EPIC-KITCHENS-100	Avg mAP (0.1-0.5)	29.3	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.1	33.1	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.2	32.2	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.3	30.4	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.4	27.5	AdaTAD (verb, VideoMAE-L)
Temporal Action Localization	EPIC-KITCHENS-100	mAP IOU@0.5	23.1	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	ActivityNet-1.3	mAP	41.93	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.5	61.72	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.75	43.35	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	ActivityNet-1.3	mAP IOU@0.95	10.85	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	76.9	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	89.7	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	86.7	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	80.9	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	71	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	56.1	AdaTAD (VideoMAEv2-giant)
Zero-Shot Learning	EPIC-KITCHENS-100	Avg mAP (0.1-0.5)	29.3	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.1	33.1	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.2	32.2	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.3	30.4	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.4	27.5	AdaTAD (verb, VideoMAE-L)
Zero-Shot Learning	EPIC-KITCHENS-100	mAP IOU@0.5	23.1	AdaTAD (verb, VideoMAE-L)
Action Localization	ActivityNet-1.3	mAP	41.93	AdaTAD (VideoMAEv2-giant)
Action Localization	ActivityNet-1.3	mAP IOU@0.5	61.72	AdaTAD (VideoMAEv2-giant)
Action Localization	ActivityNet-1.3	mAP IOU@0.75	43.35	AdaTAD (VideoMAEv2-giant)
Action Localization	ActivityNet-1.3	mAP IOU@0.95	10.85	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	76.9	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.3	89.7	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.4	86.7	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.5	80.9	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.6	71	AdaTAD (VideoMAEv2-giant)
Action Localization	THUMOS’14	mAP IOU@0.7	56.1	AdaTAD (VideoMAEv2-giant)
Action Localization	EPIC-KITCHENS-100	Avg mAP (0.1-0.5)	29.3	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.1	33.1	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.2	32.2	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.3	30.4	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.4	27.5	AdaTAD (verb, VideoMAE-L)
Action Localization	EPIC-KITCHENS-100	mAP IOU@0.5	23.1	AdaTAD (verb, VideoMAE-L)

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

Abstract

Results

Related Papers

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

Abstract

Results

Related Papers