DyFADet: Dynamic Feature Aggregation for Temporal Action Detection

Le Yang, Ziwei Zheng, Yizeng Han, Hao Cheng, Shiji Song, Gao Huang, Fan Li

2024-07-03Action Detection Temporal Action Localization

Abstract

Recent proposed neural network-based Temporal Action Detection (TAD) models are inherently limited to extracting the discriminative representations and modeling action instances with various lengths from complex scenes by shared-weights detection heads. Inspired by the successes in dynamic neural networks, in this paper, we build a novel dynamic feature aggregation (DFA) module that can simultaneously adapt kernel weights and receptive fields at different timestamps. Based on DFA, the proposed dynamic encoder layer aggregates the temporal features within the action time ranges and guarantees the discriminability of the extracted representations. Moreover, using DFA helps to develop a Dynamic TAD head (DyHead), which adaptively aggregates the multi-scale features with adjusted parameters and learned receptive fields better to detect the action instances with diverse ranges from videos. With the proposed encoder layer and DyHead, a new dynamic TAD model, DyFADet, achieves promising performance on a series of challenging TAD benchmarks, including HACS-Segment, THUMOS14, ActivityNet-1.3, Epic-Kitchen 100, Ego4D-Moment QueriesV1.0, and FineAction. Code is released to https://github.com/yangle15/DyFADet-pytorch.

Results

Task	Dataset	Metric	Value	Model
Video	HACS	Average-mAP	44.3	DyFADet(VideoMAEv2)
Video	HACS	mAP@0.5	64	DyFADet(VideoMAEv2)
Video	HACS	mAP@0.75	44.8	DyFADet(VideoMAEv2)
Video	HACS	mAP@0.95	14.1	DyFADet(VideoMAEv2)
Video	FineAction	mAP	23.8	DyFADet (VideoMAE v2-g)
Video	FineAction	mAP IOU@0.5	37.1	DyFADet (VideoMAE v2-g)
Video	FineAction	mAP IOU@0.75	23.7	DyFADet (VideoMAE v2-g)
Video	FineAction	mAP IOU@0.95	5.9	DyFADet (VideoMAE v2-g)
Temporal Action Localization	HACS	Average-mAP	44.3	DyFADet(VideoMAEv2)
Temporal Action Localization	HACS	mAP@0.5	64	DyFADet(VideoMAEv2)
Temporal Action Localization	HACS	mAP@0.75	44.8	DyFADet(VideoMAEv2)
Temporal Action Localization	HACS	mAP@0.95	14.1	DyFADet(VideoMAEv2)
Temporal Action Localization	FineAction	mAP	23.8	DyFADet (VideoMAE v2-g)
Temporal Action Localization	FineAction	mAP IOU@0.5	37.1	DyFADet (VideoMAE v2-g)
Temporal Action Localization	FineAction	mAP IOU@0.75	23.7	DyFADet (VideoMAE v2-g)
Temporal Action Localization	FineAction	mAP IOU@0.95	5.9	DyFADet (VideoMAE v2-g)
Zero-Shot Learning	HACS	Average-mAP	44.3	DyFADet(VideoMAEv2)
Zero-Shot Learning	HACS	mAP@0.5	64	DyFADet(VideoMAEv2)
Zero-Shot Learning	HACS	mAP@0.75	44.8	DyFADet(VideoMAEv2)
Zero-Shot Learning	HACS	mAP@0.95	14.1	DyFADet(VideoMAEv2)
Zero-Shot Learning	FineAction	mAP	23.8	DyFADet (VideoMAE v2-g)
Zero-Shot Learning	FineAction	mAP IOU@0.5	37.1	DyFADet (VideoMAE v2-g)
Zero-Shot Learning	FineAction	mAP IOU@0.75	23.7	DyFADet (VideoMAE v2-g)
Zero-Shot Learning	FineAction	mAP IOU@0.95	5.9	DyFADet (VideoMAE v2-g)
Action Localization	HACS	Average-mAP	44.3	DyFADet(VideoMAEv2)
Action Localization	HACS	mAP@0.5	64	DyFADet(VideoMAEv2)
Action Localization	HACS	mAP@0.75	44.8	DyFADet(VideoMAEv2)
Action Localization	HACS	mAP@0.95	14.1	DyFADet(VideoMAEv2)
Action Localization	FineAction	mAP	23.8	DyFADet (VideoMAE v2-g)
Action Localization	FineAction	mAP IOU@0.5	37.1	DyFADet (VideoMAE v2-g)
Action Localization	FineAction	mAP IOU@0.75	23.7	DyFADet (VideoMAE v2-g)
Action Localization	FineAction	mAP IOU@0.95	5.9	DyFADet (VideoMAE v2-g)

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	HACS	Average-mAP	44.3	DyFADet(VideoMAEv2)
Video	HACS	mAP@0.5	64	DyFADet(VideoMAEv2)
Video	HACS	mAP@0.75	44.8	DyFADet(VideoMAEv2)
Video	HACS	mAP@0.95	14.1	DyFADet(VideoMAEv2)
Video	FineAction	mAP	23.8	DyFADet (VideoMAE v2-g)
Video	FineAction	mAP IOU@0.5	37.1	DyFADet (VideoMAE v2-g)
Video	FineAction	mAP IOU@0.75	23.7	DyFADet (VideoMAE v2-g)
Video	FineAction	mAP IOU@0.95	5.9	DyFADet (VideoMAE v2-g)
Temporal Action Localization	HACS	Average-mAP	44.3	DyFADet(VideoMAEv2)
Temporal Action Localization	HACS	mAP@0.5	64	DyFADet(VideoMAEv2)
Temporal Action Localization	HACS	mAP@0.75	44.8	DyFADet(VideoMAEv2)
Temporal Action Localization	HACS	mAP@0.95	14.1	DyFADet(VideoMAEv2)
Temporal Action Localization	FineAction	mAP	23.8	DyFADet (VideoMAE v2-g)
Temporal Action Localization	FineAction	mAP IOU@0.5	37.1	DyFADet (VideoMAE v2-g)
Temporal Action Localization	FineAction	mAP IOU@0.75	23.7	DyFADet (VideoMAE v2-g)
Temporal Action Localization	FineAction	mAP IOU@0.95	5.9	DyFADet (VideoMAE v2-g)
Zero-Shot Learning	HACS	Average-mAP	44.3	DyFADet(VideoMAEv2)
Zero-Shot Learning	HACS	mAP@0.5	64	DyFADet(VideoMAEv2)
Zero-Shot Learning	HACS	mAP@0.75	44.8	DyFADet(VideoMAEv2)
Zero-Shot Learning	HACS	mAP@0.95	14.1	DyFADet(VideoMAEv2)
Zero-Shot Learning	FineAction	mAP	23.8	DyFADet (VideoMAE v2-g)
Zero-Shot Learning	FineAction	mAP IOU@0.5	37.1	DyFADet (VideoMAE v2-g)
Zero-Shot Learning	FineAction	mAP IOU@0.75	23.7	DyFADet (VideoMAE v2-g)
Zero-Shot Learning	FineAction	mAP IOU@0.95	5.9	DyFADet (VideoMAE v2-g)
Action Localization	HACS	Average-mAP	44.3	DyFADet(VideoMAEv2)
Action Localization	HACS	mAP@0.5	64	DyFADet(VideoMAEv2)
Action Localization	HACS	mAP@0.75	44.8	DyFADet(VideoMAEv2)
Action Localization	HACS	mAP@0.95	14.1	DyFADet(VideoMAEv2)
Action Localization	FineAction	mAP	23.8	DyFADet (VideoMAE v2-g)
Action Localization	FineAction	mAP IOU@0.5	37.1	DyFADet (VideoMAE v2-g)
Action Localization	FineAction	mAP IOU@0.75	23.7	DyFADet (VideoMAE v2-g)
Action Localization	FineAction	mAP IOU@0.95	5.9	DyFADet (VideoMAE v2-g)

DyFADet: Dynamic Feature Aggregation for Temporal Action Detection

Abstract

Results

Related Papers

DyFADet: Dynamic Feature Aggregation for Temporal Action Detection

Abstract

Results

Related Papers