Adversarial Background-Aware Loss for Weakly-supervised Temporal Activity Localization

Kyle Min, Jason J. Corso

2020-07-13ECCV 2020 8Weakly Supervised Action Localization Metric Learning Weakly-supervised Temporal Action Localization

Paper PDF Code(official)

Abstract

Temporally localizing activities within untrimmed videos has been extensively studied in recent years. Despite recent advances, existing methods for weakly-supervised temporal activity localization struggle to recognize when an activity is not occurring. To address this issue, we propose a novel method named A2CL-PT. Two triplets of the feature space are considered in our approach: one triplet is used to learn discriminative features for each activity class, and the other one is used to distinguish the features where no activity occurs (i.e. background features) from activity-related features for each video. To further improve the performance, we build our network using two parallel branches which operate in an adversarial way: the first branch localizes the most salient activities of a video and the second one finds other supplementary activities from non-localized parts of the video. Extensive experiments performed on THUMOS14 and ActivityNet datasets demonstrate that our proposed method is effective. Specifically, the average mAP of IoU thresholds from 0.1 to 0.9 on the THUMOS14 dataset is significantly improved from 27.9% to 30.0%.

Results

Task	Dataset	Metric	Value	Model
Video	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Video	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Video	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Video	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Video	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Video	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Video	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Video	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Video	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Video	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT
Video	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Video	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Video	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Video	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Video	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Video	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Video	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Video	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Video	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT
Temporal Action Localization	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Temporal Action Localization	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Temporal Action Localization	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Temporal Action Localization	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Temporal Action Localization	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Temporal Action Localization	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Temporal Action Localization	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Temporal Action Localization	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT
Zero-Shot Learning	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Zero-Shot Learning	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Zero-Shot Learning	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Zero-Shot Learning	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Zero-Shot Learning	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Zero-Shot Learning	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Zero-Shot Learning	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Zero-Shot Learning	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Action Localization	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT
Action Localization	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Action Localization	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Action Localization	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Action Localization	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Action Localization	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Action Localization	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Action Localization	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Action Localization	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Action Localization	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Weakly Supervised Action Localization	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Weakly Supervised Action Localization	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Weakly Supervised Action Localization	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Weakly Supervised Action Localization	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Weakly Supervised Action Localization	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Weakly Supervised Action Localization	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Weakly Supervised Action Localization	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Weakly Supervised Action Localization	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Weakly Supervised Action Localization	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Video	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Video	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Video	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Video	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Video	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Video	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Video	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Video	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Video	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT
Video	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Video	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Video	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Video	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Video	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Video	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Video	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Video	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Video	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT
Temporal Action Localization	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Temporal Action Localization	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Temporal Action Localization	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Temporal Action Localization	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Temporal Action Localization	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Temporal Action Localization	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Temporal Action Localization	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Temporal Action Localization	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Temporal Action Localization	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT
Zero-Shot Learning	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Zero-Shot Learning	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Zero-Shot Learning	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Zero-Shot Learning	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Zero-Shot Learning	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Zero-Shot Learning	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Zero-Shot Learning	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Zero-Shot Learning	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Zero-Shot Learning	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Action Localization	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Action Localization	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT
Action Localization	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Action Localization	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Action Localization	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Action Localization	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Action Localization	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Action Localization	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Action Localization	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Action Localization	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Action Localization	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Weakly Supervised Action Localization	THUMOS 2014	mAP@0.1:0.5	46.9	A2CL-PT
Weakly Supervised Action Localization	THUMOS 2014	mAP@0.1:0.7	37.8	A2CL-PT
Weakly Supervised Action Localization	THUMOS 2014	mAP@0.5	30.1	A2CL-PT
Weakly Supervised Action Localization	THUMOS14	avg-mAP (0.1-0.5)	46.9	A2CL-PT
Weakly Supervised Action Localization	THUMOS14	avg-mAP (0.1:0.7)	37.8	A2CL-PT
Weakly Supervised Action Localization	THUMOS14	avg-mAP (0.3-0.7)	30.6	A2CL-PT
Weakly Supervised Action Localization	THUMOS’14	mAP@0.5	30.1	A2CL-PT
Weakly Supervised Action Localization	ActivityNet-1.3	mAP@0.5	36.8	A2CL-PT
Weakly Supervised Action Localization	ActivityNet-1.3	mAP@0.5:0.95	22.5	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.1	61.2	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.2	56.1	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.3	48.1	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.4	39	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.5	30.1	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.6	19.2	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.7	10.6	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.8	4.8	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP IOU@0.9	1	A2CL-PT
Weakly-supervised Temporal Action Localization	THUMOS’14	mAP@AVG(0.1:0.9)	30	A2CL-PT

Adversarial Background-Aware Loss for Weakly-supervised Temporal Activity Localization

Abstract

Results

Related Papers

Adversarial Background-Aware Loss for Weakly-supervised Temporal Activity Localization

Abstract

Results

Related Papers