Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward

Kaiyang Zhou, Yu Qiao, Tao Xiang

2017-12-29Sequential Decision Making Reinforcement Learning Unsupervised Video Summarization Supervised Video Summarization Decision Making Video Summarization reinforcement-learning

Paper PDF Code(official)Code Code Code Code Code

Abstract

Video summarization aims to facilitate large-scale video browsing by producing short, concise summaries that are diverse and representative of original videos. In this paper, we formulate video summarization as a sequential decision-making process and develop a deep summarization network (DSN) to summarize videos. DSN predicts for each video frame a probability, which indicates how likely a frame is selected, and then takes actions based on the probability distributions to select frames, forming video summaries. To train our DSN, we propose an end-to-end, reinforcement learning-based framework, where we design a novel reward function that jointly accounts for diversity and representativeness of generated summaries and does not rely on labels or user interactions at all. During training, the reward function judges how diverse and representative the generated summaries are, while DSN strives for earning higher rewards by learning to produce more diverse and more representative summaries. Since labels are not required, our method can be fully unsupervised. Extensive experiments on two benchmark datasets show that our unsupervised method not only outperforms other state-of-the-art unsupervised methods, but also is comparable to or even superior than most of published supervised approaches.

Results

Task	Dataset	Metric	Value	Model
Video	TvSum	F1-score	57.6	DR-DSN
Video	TvSum	Kendall's Tau	0.02	DR-DSN
Video	TvSum	Parameters (M)	2.63	DR-DSN
Video	TvSum	Spearman's Rho	0.026	DR-DSN
Video	TvSum	training time (s)	58.8	DR-DSN
Video	SumMe	F1-score	41.4	DR-DSN
Video	SumMe	Parameters (M)	2.63	DR-DSN
Video	SumMe	training time (s)	19.8	DR-DSN
Video	TvSum	F1-score (Augmented)	59.8	DR-DSN
Video	TvSum	F1-score (Canonical)	58.1	DR-DSN
Video	SumMe	F1-score (Augmented)	43.9	DR-DSN
Video	SumMe	F1-score (Canonical)	42.1	DR-DSN
Video Summarization	TvSum	F1-score	57.6	DR-DSN
Video Summarization	TvSum	Kendall's Tau	0.02	DR-DSN
Video Summarization	TvSum	Parameters (M)	2.63	DR-DSN
Video Summarization	TvSum	Spearman's Rho	0.026	DR-DSN
Video Summarization	TvSum	training time (s)	58.8	DR-DSN
Video Summarization	SumMe	F1-score	41.4	DR-DSN
Video Summarization	SumMe	Parameters (M)	2.63	DR-DSN
Video Summarization	SumMe	training time (s)	19.8	DR-DSN
Video Summarization	TvSum	F1-score (Augmented)	59.8	DR-DSN
Video Summarization	TvSum	F1-score (Canonical)	58.1	DR-DSN
Video Summarization	SumMe	F1-score (Augmented)	43.9	DR-DSN
Video Summarization	SumMe	F1-score (Canonical)	42.1	DR-DSN

Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward

Abstract

Results

Related Papers

Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward

Abstract

Results

Related Papers