ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal Action Localization

Sanqing Qu, Guang Chen, Zhijun Li, Lijun Zhang, Fan Lu, Alois Knoll

2021-04-07Weakly Supervised Action Localization Action Localization Weakly-supervised Temporal Action Localization Temporal Action Localization

Paper PDF Code Code(official)

Abstract

Weakly-supervised temporal action localization aims to localize action instances temporal boundary and identify the corresponding action category with only video-level labels. Traditional methods mainly focus on foreground and background frames separation with only a single attention branch and class activation sequence. However, we argue that apart from the distinctive foreground and background frames there are plenty of semantically ambiguous action context frames. It does not make sense to group those context frames to the same background class since they are semantically related to a specific action category. Consequently, it is challenging to suppress action context frames with only a single class activation sequence. To address this issue, in this paper, we propose an action-context modeling network termed ACM-Net, which integrates a three-branch attention module to measure the likelihood of each temporal point being action instance, context, or non-action background, simultaneously. Then based on the obtained three-branch attention values, we construct three-branch class activation sequences to represent the action instances, contexts, and non-action backgrounds, individually. To evaluate the effectiveness of our ACM-Net, we conduct extensive experiments on two benchmark datasets, THUMOS-14 and ActivityNet-1.3. The experiments show that our method can outperform current state-of-the-art methods, and even achieve comparable performance with fully-supervised methods. Code can be found at https://github.com/ispc-lab/ACM-Net

Results

Task	Dataset	Metric	Value	Model
Video	THUMOS 2014	mAP@0.1:0.5	53.2	ACM-Net
Video	THUMOS 2014	mAP@0.1:0.7	42.6	ACM-Net
Video	THUMOS 2014	mAP@0.5	34.6	ACM-Net
Video	THUMOS14	avg-mAP (0.1-0.5)	53.2	ACM-Net
Video	THUMOS14	avg-mAP (0.1:0.7)	42.6	ACM-Net
Video	THUMOS14	avg-mAP (0.3-0.7)	33.4	ACM-Net
Video	THUMOS’14	mAP@0.5	34.6	ACM-Net
Video	ActivityNet-1.3	mAP@0.5	40.1	ACM-Net
Video	ActivityNet-1.3	mAP@0.5:0.95	24.6	ACM-Net
Temporal Action Localization	THUMOS 2014	mAP@0.1:0.5	53.2	ACM-Net
Temporal Action Localization	THUMOS 2014	mAP@0.1:0.7	42.6	ACM-Net
Temporal Action Localization	THUMOS 2014	mAP@0.5	34.6	ACM-Net
Temporal Action Localization	THUMOS14	avg-mAP (0.1-0.5)	53.2	ACM-Net
Temporal Action Localization	THUMOS14	avg-mAP (0.1:0.7)	42.6	ACM-Net
Temporal Action Localization	THUMOS14	avg-mAP (0.3-0.7)	33.4	ACM-Net
Temporal Action Localization	THUMOS’14	mAP@0.5	34.6	ACM-Net
Temporal Action Localization	ActivityNet-1.3	mAP@0.5	40.1	ACM-Net
Temporal Action Localization	ActivityNet-1.3	mAP@0.5:0.95	24.6	ACM-Net
Zero-Shot Learning	THUMOS 2014	mAP@0.1:0.5	53.2	ACM-Net
Zero-Shot Learning	THUMOS 2014	mAP@0.1:0.7	42.6	ACM-Net
Zero-Shot Learning	THUMOS 2014	mAP@0.5	34.6	ACM-Net
Zero-Shot Learning	THUMOS14	avg-mAP (0.1-0.5)	53.2	ACM-Net
Zero-Shot Learning	THUMOS14	avg-mAP (0.1:0.7)	42.6	ACM-Net
Zero-Shot Learning	THUMOS14	avg-mAP (0.3-0.7)	33.4	ACM-Net
Zero-Shot Learning	THUMOS’14	mAP@0.5	34.6	ACM-Net
Zero-Shot Learning	ActivityNet-1.3	mAP@0.5	40.1	ACM-Net
Zero-Shot Learning	ActivityNet-1.3	mAP@0.5:0.95	24.6	ACM-Net
Action Localization	THUMOS 2014	mAP@0.1:0.5	53.2	ACM-Net
Action Localization	THUMOS 2014	mAP@0.1:0.7	42.6	ACM-Net
Action Localization	THUMOS 2014	mAP@0.5	34.6	ACM-Net
Action Localization	THUMOS14	avg-mAP (0.1-0.5)	53.2	ACM-Net
Action Localization	THUMOS14	avg-mAP (0.1:0.7)	42.6	ACM-Net
Action Localization	THUMOS14	avg-mAP (0.3-0.7)	33.4	ACM-Net
Action Localization	THUMOS’14	mAP@0.5	34.6	ACM-Net
Action Localization	ActivityNet-1.3	mAP@0.5	40.1	ACM-Net
Action Localization	ActivityNet-1.3	mAP@0.5:0.95	24.6	ACM-Net
Weakly Supervised Action Localization	THUMOS 2014	mAP@0.1:0.5	53.2	ACM-Net
Weakly Supervised Action Localization	THUMOS 2014	mAP@0.1:0.7	42.6	ACM-Net
Weakly Supervised Action Localization	THUMOS 2014	mAP@0.5	34.6	ACM-Net
Weakly Supervised Action Localization	THUMOS14	avg-mAP (0.1-0.5)	53.2	ACM-Net
Weakly Supervised Action Localization	THUMOS14	avg-mAP (0.1:0.7)	42.6	ACM-Net
Weakly Supervised Action Localization	THUMOS14	avg-mAP (0.3-0.7)	33.4	ACM-Net
Weakly Supervised Action Localization	THUMOS’14	mAP@0.5	34.6	ACM-Net
Weakly Supervised Action Localization	ActivityNet-1.3	mAP@0.5	40.1	ACM-Net
Weakly Supervised Action Localization	ActivityNet-1.3	mAP@0.5:0.95	24.6	ACM-Net

ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal Action Localization

Abstract

Results

Related Papers

ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal Action Localization

Abstract

Results

Related Papers