Discriminative Feature Learning for Unsupervised Video Summarization

Yunjae Jung, Donghyeon Cho, Dahun Kim, Sanghyun Woo, In So Kweon

2018-11-24Unsupervised Video Summarization Supervised Video Summarization Video Summarization

Abstract

In this paper, we address the problem of unsupervised video summarization that automatically extracts key-shots from an input video. Specifically, we tackle two critical issues based on our empirical observations: (i) Ineffective feature learning due to flat distributions of output importance scores for each frame, and (ii) training difficulty when dealing with long-length video inputs. To alleviate the first problem, we propose a simple yet effective regularization loss term called variance loss. The proposed variance loss allows a network to predict output scores for each frame with high discrepancy which enables effective feature learning and significantly improves model performance. For the second problem, we design a novel two-stream network named Chunk and Stride Network (CSNet) that utilizes local (chunk) and global (stride) temporal view on the video features. Our CSNet gives better summarization results for long-length videos compared to the existing methods. In addition, we introduce an attention mechanism to handle the dynamic information in videos. We demonstrate the effectiveness of the proposed methods by conducting extensive ablation studies and show that our final model achieves new state-of-the-art results on two benchmark datasets.

Results

Task	Dataset	Metric	Value	Model
Video	TvSum	F1-score	58.8	CSNet
Video	TvSum	Kendall's Tau	0.025	CSNet
Video	TvSum	Parameters (M)	100.76	CSNet
Video	TvSum	Spearman's Rho	0.034	CSNet
Video	TvSum	training time (s)	1797	CSNet
Video	SumMe	F1-score	51.3	CSNet
Video	SumMe	Parameters (M)	100.76	CSNet
Video	SumMe	training time (s)	568.6	CSNet
Video	TvSum	F1-score (Augmented)	57.1	CSNet
Video	TvSum	F1-score (Canonical)	58.5	CSNet
Video	SumMe	F1-score (Augmented)	48.7	CSNet
Video	SumMe	F1-score (Canonical)	48.6	CSNet
Video Summarization	TvSum	F1-score	58.8	CSNet
Video Summarization	TvSum	Kendall's Tau	0.025	CSNet
Video Summarization	TvSum	Parameters (M)	100.76	CSNet
Video Summarization	TvSum	Spearman's Rho	0.034	CSNet
Video Summarization	TvSum	training time (s)	1797	CSNet
Video Summarization	SumMe	F1-score	51.3	CSNet
Video Summarization	SumMe	Parameters (M)	100.76	CSNet
Video Summarization	SumMe	training time (s)	568.6	CSNet
Video Summarization	TvSum	F1-score (Augmented)	57.1	CSNet
Video Summarization	TvSum	F1-score (Canonical)	58.5	CSNet
Video Summarization	SumMe	F1-score (Augmented)	48.7	CSNet
Video Summarization	SumMe	F1-score (Canonical)	48.6	CSNet

Discriminative Feature Learning for Unsupervised Video Summarization

Abstract

Results

Related Papers

Discriminative Feature Learning for Unsupervised Video Summarization

Abstract

Results

Related Papers