DVIS++: Improved Decoupled Framework for Universal Video Segmentation

Tao Zhang, Xingye Tian, Yikang Zhou, Shunping Ji, Xuebo Wang, Xin Tao, Yuan Zhang, Pengfei Wan, Zhongyuan Wang, Yu Wu

2023-12-20Denoising Panoptic Segmentation Video Panoptic Segmentation Segmentation Semantic Segmentation Video Segmentation Contrastive Learning Instance Segmentation Video Semantic Segmentation Video Instance Segmentation

Paper PDF Code(official)

Abstract

We present the \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS) framework, a novel approach for the challenging task of universal video segmentation, including video instance segmentation (VIS), video semantic segmentation (VSS), and video panoptic segmentation (VPS). Unlike previous methods that model video segmentation in an end-to-end manner, our approach decouples video segmentation into three cascaded sub-tasks: segmentation, tracking, and refinement. This decoupling design allows for simpler and more effective modeling of the spatio-temporal representations of objects, especially in complex scenes and long videos. Accordingly, we introduce two novel components: the referring tracker and the temporal refiner. These components track objects frame by frame and model spatio-temporal representations based on pre-aligned features. To improve the tracking capability of DVIS, we propose a denoising training strategy and introduce contrastive learning, resulting in a more robust framework named DVIS++. Furthermore, we evaluate DVIS++ in various settings, including open vocabulary and using a frozen pre-trained backbone. By integrating CLIP with DVIS++, we present OV-DVIS++, the first open-vocabulary universal video segmentation framework. We conduct extensive experiments on six mainstream benchmarks, including the VIS, VSS, and VPS datasets. Using a unified architecture, DVIS++ significantly outperforms state-of-the-art specialized methods on these benchmarks in both close- and open-vocabulary settings. Code:~\url{https://github.com/zhang-tao-whu/DVIS_Plus}.

Results

Task	Dataset	Metric	Value	Model
Scene Parsing	VSPW	mIoU	63.8	DVIS++(VIT-L)
Semantic Segmentation	VIPSeg	STQ	56	DVIS++(VIT-L)
Semantic Segmentation	VIPSeg	VPQ	58	DVIS++(VIT-L)
Video Semantic Segmentation	VSPW	mIoU	63.8	DVIS++(VIT-L)
Scene Understanding	VSPW	mIoU	63.8	DVIS++(VIT-L)
Video Instance Segmentation	YouTube-VIS 2021	AP50	86.7	DVIS++(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS 2021	AP75	71.5	DVIS++(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS 2021	AR1	48.8	DVIS++(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS 2021	AR10	69.5	DVIS++(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	63.9	DVIS++(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS 2021	AP50	82.7	DVIS++(VIT-L, Online)
Video Instance Segmentation	YouTube-VIS 2021	AP75	70.2	DVIS++(VIT-L, Online)
Video Instance Segmentation	YouTube-VIS 2021	AR1	49.5	DVIS++(VIT-L, Online)
Video Instance Segmentation	YouTube-VIS 2021	AR10	68	DVIS++(VIT-L, Online)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	62.3	DVIS++(VIT-L, Online)
Video Instance Segmentation	YouTube-VIS validation	AP50	88.8	DVIS++(ViT-L, Online)
Video Instance Segmentation	YouTube-VIS validation	AP75	75.3	DVIS++(ViT-L, Online)
Video Instance Segmentation	YouTube-VIS validation	AR1	57.9	DVIS++(ViT-L, Online)
Video Instance Segmentation	YouTube-VIS validation	AR10	73.7	DVIS++(ViT-L, Online)
Video Instance Segmentation	YouTube-VIS validation	mask AP	67.7	DVIS++(ViT-L, Online)
Video Instance Segmentation	OVIS validation	AP50	78.9	DVIS++(VIT-L,Offline)
Video Instance Segmentation	OVIS validation	AP75	58.5	DVIS++(VIT-L,Offline)
Video Instance Segmentation	OVIS validation	mask AP	53.4	DVIS++(VIT-L,Offline)
Video Instance Segmentation	OVIS validation	AP50	72.5	DVIS++(VIT-L, Online)
Video Instance Segmentation	OVIS validation	AP75	55	DVIS++(VIT-L, Online)
Video Instance Segmentation	OVIS validation	APho	27.1	DVIS++(VIT-L, Online)
Video Instance Segmentation	OVIS validation	APmo	56.6	DVIS++(VIT-L, Online)
Video Instance Segmentation	OVIS validation	APso	69.9	DVIS++(VIT-L, Online)
Video Instance Segmentation	OVIS validation	AR1	20.8	DVIS++(VIT-L, Online)
Video Instance Segmentation	OVIS validation	AR10	54.6	DVIS++(VIT-L, Online)
Video Instance Segmentation	OVIS validation	mask AP	49.6	DVIS++(VIT-L, Online)
Video Instance Segmentation	OVIS validation	AP50	68.9	DVIS++(R50, Offline)
Video Instance Segmentation	OVIS validation	AP75	40.9	DVIS++(R50, Offline)
Video Instance Segmentation	OVIS validation	AR1	16.8	DVIS++(R50, Offline)
Video Instance Segmentation	OVIS validation	AR10	47.3	DVIS++(R50, Offline)
Video Instance Segmentation	OVIS validation	mask AP	41.2	DVIS++(R50, Offline)
Video Instance Segmentation	OVIS validation	AP50	62.8	DVIS++(R50, Online)
Video Instance Segmentation	OVIS validation	AP75	37.3	DVIS++(R50, Online)
Video Instance Segmentation	OVIS validation	AR1	15.8	DVIS++(R50, Online)
Video Instance Segmentation	OVIS validation	AR10	42.9	DVIS++(R50, Online)
Video Instance Segmentation	OVIS validation	mask AP	37.2	DVIS++(R50, Online)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AP50_L	75.7	DVIS++(VIT-L)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AP75_L	52.8	DVIS++(VIT-L)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AR10_L	55.8	DVIS++(VIT-L)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AR1_L	40.6	DVIS++(VIT-L)
Video Instance Segmentation	Youtube-VIS 2022 Validation	mAP_L	50.9	DVIS++(VIT-L)
2D Semantic Segmentation	VSPW	mIoU	63.8	DVIS++(VIT-L)
10-shot image generation	VIPSeg	STQ	56	DVIS++(VIT-L)
10-shot image generation	VIPSeg	VPQ	58	DVIS++(VIT-L)
Panoptic Segmentation	VIPSeg	STQ	56	DVIS++(VIT-L)
Panoptic Segmentation	VIPSeg	VPQ	58	DVIS++(VIT-L)

DVIS++: Improved Decoupled Framework for Universal Video Segmentation

Abstract

Results

Related Papers

DVIS++: Improved Decoupled Framework for Universal Video Segmentation

Abstract

Results

Related Papers