Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

Xiangtai Li, Haobo Yuan, Wenwei Zhang, Guangliang Cheng, Jiangmiao Pang, Chen Change Loy

2023-03-22ICCV 2023 1Video Panoptic Segmentation Segmentation Video Segmentation Contrastive Learning Video Semantic Segmentation Video Instance Segmentation

Paper PDF Code(official)

Abstract

Video segmentation aims to segment and track every pixel in diverse scenarios accurately. In this paper, we present Tube-Link, a versatile framework that addresses multiple core tasks of video segmentation with a unified architecture. Our framework is a near-online approach that takes a short subclip as input and outputs the corresponding spatial-temporal tube masks. To enhance the modeling of cross-tube relationships, we propose an effective way to perform tube-level linking via attention along the queries. In addition, we introduce temporal contrastive learning to instance-wise discriminative features for tube-level association. Our approach offers flexibility and efficiency for both short and long video inputs, as the length of each subclip can be varied according to the needs of datasets or scenarios. Tube-Link outperforms existing specialized architectures by a significant margin on five video segmentation datasets. Specifically, it achieves almost 13% relative improvements on VIPSeg and 4% improvements on KITTI-STEP over the strong baseline Video K-Net. When using a ResNet50 backbone on Youtube-VIS-2019 and 2021, Tube-Link boosts IDOL by 3% and 4%, respectively.

Results

Task	Dataset	Metric	Value	Model
Scene Parsing	VSPW	mIoU	59.6	Tube-Link(Swin-large)
Semantic Segmentation	VIPSeg	STQ	49.4	Tube-Link(Swin-base)
Semantic Segmentation	VIPSeg	VPQ	50.4	Tube-Link(Swin-base)
Semantic Segmentation	KITTI-STEP	AQ	69	Tube-Link(Swin-base)
Semantic Segmentation	KITTI-STEP	SQ	74	Tube-Link(Swin-base)
Semantic Segmentation	KITTI-STEP	STQ	72	Tube-Link(Swin-base)
Video Semantic Segmentation	VSPW	mIoU	59.6	Tube-Link(Swin-large)
Scene Understanding	VSPW	mIoU	59.6	Tube-Link(Swin-large)
Video Instance Segmentation	YouTube-VIS 2021	AP50	79.4	Tube-Link(Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AP75	64.3	Tube-Link(Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR1	47.5	Tube-Link(Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR10	63.6	Tube-Link(Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	58.4	Tube-Link(Swin-L)
Video Instance Segmentation	YouTube-VIS validation	AP50	86.6	Tube-Link
Video Instance Segmentation	YouTube-VIS validation	AP75	71.3	Tube-Link
Video Instance Segmentation	YouTube-VIS validation	AR1	55.9	Tube-Link
Video Instance Segmentation	YouTube-VIS validation	AR10	69.1	Tube-Link
Video Instance Segmentation	YouTube-VIS validation	mask AP	64.6	Tube-Link
Video Instance Segmentation	OVIS validation	AP50	51.5	Tube-Link(ResNet-50)
Video Instance Segmentation	OVIS validation	AP75	30.2	Tube-Link(ResNet-50)
Video Instance Segmentation	OVIS validation	AR1	15.5	Tube-Link(ResNet-50)
Video Instance Segmentation	OVIS validation	AR10	34.5	Tube-Link(ResNet-50)
Video Instance Segmentation	OVIS validation	mask AP	29.5	Tube-Link(ResNet-50)
2D Semantic Segmentation	VSPW	mIoU	59.6	Tube-Link(Swin-large)
10-shot image generation	VIPSeg	STQ	49.4	Tube-Link(Swin-base)
10-shot image generation	VIPSeg	VPQ	50.4	Tube-Link(Swin-base)
10-shot image generation	KITTI-STEP	AQ	69	Tube-Link(Swin-base)
10-shot image generation	KITTI-STEP	SQ	74	Tube-Link(Swin-base)
10-shot image generation	KITTI-STEP	STQ	72	Tube-Link(Swin-base)
Panoptic Segmentation	VIPSeg	STQ	49.4	Tube-Link(Swin-base)
Panoptic Segmentation	VIPSeg	VPQ	50.4	Tube-Link(Swin-base)
Panoptic Segmentation	KITTI-STEP	AQ	69	Tube-Link(Swin-base)
Panoptic Segmentation	KITTI-STEP	SQ	74	Tube-Link(Swin-base)
Panoptic Segmentation	KITTI-STEP	STQ	72	Tube-Link(Swin-base)

Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

Abstract

Results

Related Papers

Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

Abstract

Results

Related Papers