Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion

Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang

2021-03-14CVPR 2021 1Semi-Supervised Video Object Segmentation Semantic Segmentation Video Object Segmentation Interactive Video Object Segmentation Video Semantic Segmentation

Paper PDF Code Code(official)Code Code Code

Abstract

We present Modular interactive VOS (MiVOS) framework which decouples interaction-to-mask and mask propagation, allowing for higher generalizability and better performance. Trained separately, the interaction module converts user interactions to an object mask, which is then temporally propagated by our propagation module using a novel top-$k$ filtering strategy in reading the space-time memory. To effectively take the user's intent into account, a novel difference-aware module is proposed to learn how to properly fuse the masks before and after each interaction, which are aligned with the target frames by employing the space-time memory. We evaluate our method both qualitatively and quantitatively with different forms of user interactions (e.g., scribbles, clicks) on DAVIS to show that our method outperforms current state-of-the-art algorithms while requiring fewer frame interactions, with the additional advantage in generalizing to different types of user interactions. We contribute a large-scale synthetic VOS dataset with pixel-accurate segmentation of 4.8M frames to accompany our source codes to facilitate future research.

Results

Task	Dataset	Metric	Value	Model
Video	DAVIS 2017 (val)	F-measure (Decay)	8.2	MiVOS
Video	DAVIS 2017 (val)	F-measure (Mean)	87.4	MiVOS
Video	DAVIS 2017 (val)	F-measure (Recall)	93.1	MiVOS
Video	DAVIS 2017 (val)	J&F	84.5	MiVOS
Video	DAVIS 2017 (val)	Jaccard (Decay)	7	MiVOS
Video	DAVIS 2017 (val)	Jaccard (Mean)	81.7	MiVOS
Video	DAVIS 2017 (val)	Jaccard (Recall)	90.9	MiVOS
Video	DAVIS 2017 (val)	Speed (FPS)	11.2	MiVOS
Video	DAVIS 2016	F-measure (Decay)	5.1	MiVOS
Video	DAVIS 2016	F-measure (Mean)	92.4	MiVOS
Video	DAVIS 2016	F-measure (Recall)	96.4	MiVOS
Video	DAVIS 2016	J&F	91	MiVOS
Video	DAVIS 2016	Jaccard (Decay)	6.6	MiVOS
Video	DAVIS 2016	Jaccard (Mean)	89.7	MiVOS
Video	DAVIS 2016	Jaccard (Recall)	97.5	MiVOS
Video	DAVIS 2016	Speed (FPS)	16.9	MiVOS
Video	DAVIS 2017 (test-dev)	F-measure (Decay)	14.5	MiVOS
Video	DAVIS 2017 (test-dev)	F-measure (Mean)	80.2	MiVOS
Video	DAVIS 2017 (test-dev)	F-measure (Recall)	87.6	MiVOS
Video	DAVIS 2017 (test-dev)	J&F	76.5	MiVOS
Video	DAVIS 2017 (test-dev)	Jaccard (Decay)	14.9	MiVOS
Video	DAVIS 2017 (test-dev)	Jaccard (Mean)	72.7	MiVOS
Video	DAVIS 2017 (test-dev)	Jaccard (Recall)	81.2	MiVOS
Video	YouTube-VOS 2018	F-Measure (Seen)	84.7	MiVOS
Video	YouTube-VOS 2018	F-Measure (Unseen)	85.5	MiVOS
Video	YouTube-VOS 2018	Jaccard (Seen)	80.6	MiVOS
Video	YouTube-VOS 2018	Jaccard (Unseen)	77.3	MiVOS
Video	YouTube-VOS 2018	Overall	82	MiVOS
Video	DAVIS 2017	AUC-J	0.849	MiVOS
Video	DAVIS 2017	AUC-J&F	0.879	MiVOS
Video	DAVIS 2017	J&F@60s	0.885	MiVOS
Video	DAVIS 2017	J@60s	0.854	MiVOS
Video Object Segmentation	DAVIS 2017 (val)	F-measure (Decay)	8.2	MiVOS
Video Object Segmentation	DAVIS 2017 (val)	F-measure (Mean)	87.4	MiVOS
Video Object Segmentation	DAVIS 2017 (val)	F-measure (Recall)	93.1	MiVOS
Video Object Segmentation	DAVIS 2017 (val)	J&F	84.5	MiVOS
Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Decay)	7	MiVOS
Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Mean)	81.7	MiVOS
Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Recall)	90.9	MiVOS
Video Object Segmentation	DAVIS 2017 (val)	Speed (FPS)	11.2	MiVOS
Video Object Segmentation	DAVIS 2016	F-measure (Decay)	5.1	MiVOS
Video Object Segmentation	DAVIS 2016	F-measure (Mean)	92.4	MiVOS
Video Object Segmentation	DAVIS 2016	F-measure (Recall)	96.4	MiVOS
Video Object Segmentation	DAVIS 2016	J&F	91	MiVOS
Video Object Segmentation	DAVIS 2016	Jaccard (Decay)	6.6	MiVOS
Video Object Segmentation	DAVIS 2016	Jaccard (Mean)	89.7	MiVOS
Video Object Segmentation	DAVIS 2016	Jaccard (Recall)	97.5	MiVOS
Video Object Segmentation	DAVIS 2016	Speed (FPS)	16.9	MiVOS
Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Decay)	14.5	MiVOS
Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Mean)	80.2	MiVOS
Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Recall)	87.6	MiVOS
Video Object Segmentation	DAVIS 2017 (test-dev)	J&F	76.5	MiVOS
Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Decay)	14.9	MiVOS
Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Mean)	72.7	MiVOS
Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Recall)	81.2	MiVOS
Video Object Segmentation	YouTube-VOS 2018	F-Measure (Seen)	84.7	MiVOS
Video Object Segmentation	YouTube-VOS 2018	F-Measure (Unseen)	85.5	MiVOS
Video Object Segmentation	YouTube-VOS 2018	Jaccard (Seen)	80.6	MiVOS
Video Object Segmentation	YouTube-VOS 2018	Jaccard (Unseen)	77.3	MiVOS
Video Object Segmentation	YouTube-VOS 2018	Overall	82	MiVOS
Video Object Segmentation	DAVIS 2017	AUC-J	0.849	MiVOS
Video Object Segmentation	DAVIS 2017	AUC-J&F	0.879	MiVOS
Video Object Segmentation	DAVIS 2017	J&F@60s	0.885	MiVOS
Video Object Segmentation	DAVIS 2017	J@60s	0.854	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	F-measure (Decay)	8.2	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	F-measure (Mean)	87.4	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	F-measure (Recall)	93.1	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	J&F	84.5	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Decay)	7	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Mean)	81.7	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Recall)	90.9	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	Speed (FPS)	11.2	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2016	F-measure (Decay)	5.1	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2016	F-measure (Mean)	92.4	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2016	F-measure (Recall)	96.4	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2016	J&F	91	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2016	Jaccard (Decay)	6.6	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2016	Jaccard (Mean)	89.7	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2016	Jaccard (Recall)	97.5	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2016	Speed (FPS)	16.9	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Decay)	14.5	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Mean)	80.2	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	F-measure (Recall)	87.6	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	J&F	76.5	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Decay)	14.9	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Mean)	72.7	MiVOS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	Jaccard (Recall)	81.2	MiVOS
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	F-Measure (Seen)	84.7	MiVOS
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	F-Measure (Unseen)	85.5	MiVOS
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	Jaccard (Seen)	80.6	MiVOS
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	Jaccard (Unseen)	77.3	MiVOS
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	Overall	82	MiVOS

Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion

Abstract

Results

Related Papers

Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion

Abstract

Results

Related Papers