Dual DETRs for Multi-Label Temporal Action Detection

Yuhan Zhu, Guozhen Zhang, Jing Tan, Gangshan Wu, LiMin Wang

2024-03-31CVPR 2024 1Action Detection Temporal Action Localization object-detection Object Detection

Abstract

Temporal Action Detection (TAD) aims to identify the action boundaries and the corresponding category within untrimmed videos. Inspired by the success of DETR in object detection, several methods have adapted the query-based framework to the TAD task. However, these approaches primarily followed DETR to predict actions at the instance level (i.e., identify each action by its center point), leading to sub-optimal boundary localization. To address this issue, we propose a new Dual-level query-based TAD framework, namely DualDETR, to detect actions from both instance-level and boundary-level. Decoding at different levels requires semantics of different granularity, therefore we introduce a two-branch decoding structure. This structure builds distinctive decoding processes for different levels, facilitating explicit capture of temporal cues and semantics at each level. On top of the two-branch design, we present a joint query initialization strategy to align queries from both levels. Specifically, we leverage encoder proposals to match queries from each level in a one-to-one manner. Then, the matched queries are initialized using position and content prior from the matched action proposal. The aligned dual-level queries can refine the matched proposal with complementary cues during subsequent decoding. We evaluate DualDETR on three challenging multi-label TAD benchmarks. The experimental results demonstrate the superior performance of DualDETR to the existing state-of-the-art methods, achieving a substantial improvement under det-mAP and delivering impressive results under seg-mAP.

Results

Task	Dataset	Metric	Value	Model
Video	THUMOS’14	Avg mAP (0.3:0.7)	66.8	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.3	82.9	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.4	78	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.5	70.4	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.6	58.5	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.7	44.4	DualDETR (I3D features)
Video	MultiTHUMOS	Average mAP	32.64	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.1	53.42	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.3	47.41	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.5	35.18	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.7	20.18	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.9	4.02	DualDETR (I3D-rgb)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	66.8	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	82.9	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	78	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	70.4	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	58.5	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	44.4	DualDETR (I3D features)
Temporal Action Localization	MultiTHUMOS	Average mAP	32.64	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.1	53.42	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.3	47.41	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.5	35.18	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.7	20.18	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.9	4.02	DualDETR (I3D-rgb)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	66.8	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	82.9	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	78	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	70.4	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	58.5	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	44.4	DualDETR (I3D features)
Zero-Shot Learning	MultiTHUMOS	Average mAP	32.64	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.1	53.42	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.3	47.41	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.5	35.18	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.7	20.18	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.9	4.02	DualDETR (I3D-rgb)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	66.8	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.3	82.9	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.4	78	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.5	70.4	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.6	58.5	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.7	44.4	DualDETR (I3D features)
Action Localization	MultiTHUMOS	Average mAP	32.64	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.1	53.42	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.3	47.41	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.5	35.18	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.7	20.18	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.9	4.02	DualDETR (I3D-rgb)

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	THUMOS’14	Avg mAP (0.3:0.7)	66.8	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.3	82.9	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.4	78	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.5	70.4	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.6	58.5	DualDETR (I3D features)
Video	THUMOS’14	mAP IOU@0.7	44.4	DualDETR (I3D features)
Video	MultiTHUMOS	Average mAP	32.64	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.1	53.42	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.3	47.41	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.5	35.18	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.7	20.18	DualDETR (I3D-rgb)
Video	MultiTHUMOS	mAP IOU@0.9	4.02	DualDETR (I3D-rgb)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	66.8	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	82.9	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	78	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	70.4	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	58.5	DualDETR (I3D features)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	44.4	DualDETR (I3D features)
Temporal Action Localization	MultiTHUMOS	Average mAP	32.64	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.1	53.42	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.3	47.41	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.5	35.18	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.7	20.18	DualDETR (I3D-rgb)
Temporal Action Localization	MultiTHUMOS	mAP IOU@0.9	4.02	DualDETR (I3D-rgb)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	66.8	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	82.9	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	78	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	70.4	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	58.5	DualDETR (I3D features)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	44.4	DualDETR (I3D features)
Zero-Shot Learning	MultiTHUMOS	Average mAP	32.64	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.1	53.42	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.3	47.41	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.5	35.18	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.7	20.18	DualDETR (I3D-rgb)
Zero-Shot Learning	MultiTHUMOS	mAP IOU@0.9	4.02	DualDETR (I3D-rgb)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	66.8	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.3	82.9	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.4	78	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.5	70.4	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.6	58.5	DualDETR (I3D features)
Action Localization	THUMOS’14	mAP IOU@0.7	44.4	DualDETR (I3D features)
Action Localization	MultiTHUMOS	Average mAP	32.64	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.1	53.42	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.3	47.41	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.5	35.18	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.7	20.18	DualDETR (I3D-rgb)
Action Localization	MultiTHUMOS	mAP IOU@0.9	4.02	DualDETR (I3D-rgb)

Dual DETRs for Multi-Label Temporal Action Detection

Abstract

Results

Related Papers

Dual DETRs for Multi-Label Temporal Action Detection

Abstract

Results

Related Papers