Video Object Segmentation using Space-Time Memory Networks

Seoung Wug Oh, Joon-Young Lee, Ning Xu, Seon Joo Kim

2019-04-01ICCV 2019 10Semi-Supervised Video Object Segmentation One-shot visual object segmentation Semantic Segmentation Video Object Segmentation Interactive Video Object Segmentation Video Semantic Segmentation

Paper PDF Code Code Code

Abstract

We propose a novel solution for semi-supervised video object segmentation. By the nature of the problem, available cues (e.g. video frame(s) with object masks) become richer with the intermediate predictions. However, the existing methods are unable to fully exploit this rich source of information. We resolve the issue by leveraging memory networks and learn to read relevant information from all available sources. In our framework, the past frames with object masks form an external memory, and the current frame as the query is segmented using the mask information in the memory. Specifically, the query and the memory are densely matched in the feature space, covering all the space-time pixel locations in a feed-forward fashion. Contrast to the previous approaches, the abundant use of the guidance information allows us to better handle the challenges such as appearance changes and occlussions. We validate our method on the latest benchmark sets and achieved the state-of-the-art performance (overall score of 79.4 on Youtube-VOS val set, J of 88.7 and 79.2 on DAVIS 2016/2017 val set respectively) while having a fast runtime (0.16 second/frame on DAVIS 2016 val set).

Results

Task	Dataset	Metric	Value	Model
Video	DAVIS 2017 (val)	F-measure	84.3	STM
Video	DAVIS 2017 (val)	Jaccard	79.2	STM
Video	DAVIS 2017 (val)	F-measure (Decay)	10.5	STM
Video	DAVIS 2017 (val)	F-measure (Mean)	84.3	STM
Video	DAVIS 2017 (val)	F-measure (Recall)	91.8	STM
Video	DAVIS 2017 (val)	J&F	81.75	STM
Video	DAVIS 2017 (val)	Jaccard (Decay)	8	STM
Video	DAVIS 2017 (val)	Jaccard (Mean)	79.2	STM
Video	DAVIS 2017 (val)	Jaccard (Recall)	88.7	STM
Video	DAVIS 2016	F-measure (Decay)	4.2	STM
Video	DAVIS 2016	F-measure (Mean)	90.1	STM
Video	DAVIS 2016	F-measure (Recall)	95.2	STM
Video	DAVIS 2016	J&F	89.4	STM
Video	DAVIS 2016	Jaccard (Decay)	5	STM
Video	DAVIS 2016	Jaccard (Mean)	88.7	STM
Video	DAVIS 2016	Jaccard (Recall)	97.4	STM
Video	DAVIS 2017 (test-dev)	F-measure (Decay)	17.5	STM
Video	DAVIS 2017 (test-dev)	F-measure (Mean)	75.2	STM
Video	DAVIS 2017 (test-dev)	F-measure (Recall)	83	STM
Video	DAVIS 2017 (test-dev)	J&F	72.2	STM
Video	DAVIS 2017 (test-dev)	Jaccard (Decay)	16.9	STM
Video	DAVIS 2017 (test-dev)	Jaccard (Mean)	69.3	STM
Video	DAVIS 2017 (test-dev)	Jaccard (Recall)	78	STM
Video	DAVIS (no YouTube-VOS training)	D16 val (F)	88.1	STM
Video	DAVIS (no YouTube-VOS training)	D16 val (G)	86.5	STM
Video	DAVIS (no YouTube-VOS training)	D16 val (J)	84.8	STM
Video	DAVIS (no YouTube-VOS training)	D17 val (F)	74	STM
Video	DAVIS (no YouTube-VOS training)	D17 val (G)	71.6	STM
Video	DAVIS (no YouTube-VOS training)	D17 val (J)	69.2	STM
Video	DAVIS (no YouTube-VOS training)	FPS	6.25	STM
Video	YouTube-VOS 2018	Overall	68.2	STM
Video	DAVIS 2017	AUC-J&F	0.803	STM
Video	DAVIS 2017	J&F@60s	0.848	STM
Video Object Segmentation	DAVIS 2017 (val)	F-measure	84.3	STM
Video Object Segmentation	DAVIS 2017 (val)	Jaccard	79.2	STM
Video Object Segmentation	DAVIS 2017 (val)	F-measure (Decay)	10.5	STM
Video Object Segmentation	DAVIS 2017 (val)	F-measure (Mean)	84.3	STM
Video Object Segmentation	DAVIS 2017 (val)	F-measure (Recall)	91.8	STM
Video Object Segmentation	DAVIS 2017 (val)	J&F	81.75	STM
Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Decay)	8	STM
Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Mean)	79.2	STM
Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Recall)	88.7	STM
Video Object Segmentation	DAVIS 2016	F-measure (Decay)	4.2	STM
Video Object Segmentation	DAVIS 2016	F-measure (Mean)	90.1	STM
Video Object Segmentation	DAVIS 2016	F-measure (Recall)	95.2	STM
Video Object Segmentation	DAVIS 2016	J&F	89.4	STM
Video Object Segmentation	DAVIS 2016	Jaccard (Decay)	5	STM
Video Object Segmentation	DAVIS 2016	Jaccard (Mean)	88.7	STM
Video Object Segmentation	DAVIS 2016	Jaccard (Recall)	97.4	STM
Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Decay)	17.5	STM
Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Mean)	75.2	STM
Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Recall)	83	STM
Video Object Segmentation	DAVIS 2017 (test-dev)	J&F	72.2	STM
Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Decay)	16.9	STM
Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Mean)	69.3	STM
Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Recall)	78	STM
Video Object Segmentation	DAVIS (no YouTube-VOS training)	D16 val (F)	88.1	STM
Video Object Segmentation	DAVIS (no YouTube-VOS training)	D16 val (G)	86.5	STM
Video Object Segmentation	DAVIS (no YouTube-VOS training)	D16 val (J)	84.8	STM
Video Object Segmentation	DAVIS (no YouTube-VOS training)	D17 val (F)	74	STM
Video Object Segmentation	DAVIS (no YouTube-VOS training)	D17 val (G)	71.6	STM
Video Object Segmentation	DAVIS (no YouTube-VOS training)	D17 val (J)	69.2	STM
Video Object Segmentation	DAVIS (no YouTube-VOS training)	FPS	6.25	STM
Video Object Segmentation	YouTube-VOS 2018	Overall	68.2	STM
Video Object Segmentation	DAVIS 2017	AUC-J&F	0.803	STM
Video Object Segmentation	DAVIS 2017	J&F@60s	0.848	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	F-measure (Decay)	10.5	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	F-measure (Mean)	84.3	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	F-measure (Recall)	91.8	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	J&F	81.75	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Decay)	8	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Mean)	79.2	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Recall)	88.7	STM
Semi-Supervised Video Object Segmentation	DAVIS 2016	F-measure (Decay)	4.2	STM
Semi-Supervised Video Object Segmentation	DAVIS 2016	F-measure (Mean)	90.1	STM
Semi-Supervised Video Object Segmentation	DAVIS 2016	F-measure (Recall)	95.2	STM
Semi-Supervised Video Object Segmentation	DAVIS 2016	J&F	89.4	STM
Semi-Supervised Video Object Segmentation	DAVIS 2016	Jaccard (Decay)	5	STM
Semi-Supervised Video Object Segmentation	DAVIS 2016	Jaccard (Mean)	88.7	STM
Semi-Supervised Video Object Segmentation	DAVIS 2016	Jaccard (Recall)	97.4	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Decay)	17.5	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Mean)	75.2	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Recall)	83	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	J&F	72.2	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Decay)	16.9	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Mean)	69.3	STM
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Recall)	78	STM
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	D16 val (F)	88.1	STM
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	D16 val (G)	86.5	STM
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	D16 val (J)	84.8	STM
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	D17 val (F)	74	STM
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	D17 val (G)	71.6	STM
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	D17 val (J)	69.2	STM
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	FPS	6.25	STM
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	Overall	68.2	STM

Video Object Segmentation using Space-Time Memory Networks

Abstract

Results

Related Papers

Video Object Segmentation using Space-Time Memory Networks

Abstract

Results

Related Papers