TarViS: A Unified Approach for Target-based Video Segmentation

Ali Athar, Alexander Hermans, Jonathon Luiten, Deva Ramanan, Bastian Leibe

2023-01-06CVPR 2023 1Panoptic Segmentation Video Panoptic Segmentation Segmentation Semantic Segmentation Video Segmentation Video Object Segmentation Instance Segmentation Video Semantic Segmentation Video Instance Segmentation

Paper PDF Code(official)

Abstract

The general domain of video segmentation is currently fragmented into different tasks spanning multiple benchmarks. Despite rapid progress in the state-of-the-art, current methods are overwhelmingly task-specific and cannot conceptually generalize to other tasks. Inspired by recent approaches with multi-task capability, we propose TarViS: a novel, unified network architecture that can be applied to any task that requires segmenting a set of arbitrarily defined 'targets' in video. Our approach is flexible with respect to how tasks define these targets, since it models the latter as abstract 'queries' which are then used to predict pixel-precise target masks. A single TarViS model can be trained jointly on a collection of datasets spanning different tasks, and can hot-swap between tasks during inference without any task-specific retraining. To demonstrate its effectiveness, we apply TarViS to four different tasks, namely Video Instance Segmentation (VIS), Video Panoptic Segmentation (VPS), Video Object Segmentation (VOS) and Point Exemplar-guided Tracking (PET). Our unified, jointly trained model achieves state-of-the-art performance on 5/7 benchmarks spanning these four tasks, and competitive performance on the remaining two. Code and model weights are available at: https://github.com/Ali2500/TarViS

Results

Task	Dataset	Metric	Value	Model
Video	DAVIS 2017 (val)	F-measure (Mean)	88.5	TarViS
Video	DAVIS 2017 (val)	J&F	85.3	TarViS
Video	DAVIS 2017 (val)	Jaccard (Mean)	81.7	TarViS
Semantic Segmentation	Cityscapes-VPS	VPQ	58.9	TarViS (Swin-L)
Semantic Segmentation	Cityscapes-VPS	VPQ (stuff)	69.9	TarViS (Swin-L)
Semantic Segmentation	Cityscapes-VPS	VPQ (thing)	43.7	TarViS (Swin-L)
Semantic Segmentation	Cityscapes-VPS	VPQ	58	TarViS (Swin-T)
Semantic Segmentation	Cityscapes-VPS	VPQ (stuff)	69	TarViS (Swin-T)
Semantic Segmentation	Cityscapes-VPS	VPQ (thing)	42.9	TarViS (Swin-T)
Semantic Segmentation	Cityscapes-VPS	VPQ	53.3	TarViS (ResNet-50)
Semantic Segmentation	Cityscapes-VPS	VPQ (stuff)	66	TarViS (ResNet-50)
Semantic Segmentation	Cityscapes-VPS	VPQ (thing)	35.9	TarViS (ResNet-50)
Semantic Segmentation	VIPSeg	STQ	52.9	TarViS (Swin-L)
Semantic Segmentation	VIPSeg	VPQ	48	TarViS (Swin-L)
Semantic Segmentation	VIPSeg	STQ	45.3	TarViS (Swin-T)
Semantic Segmentation	VIPSeg	VPQ	35.8	TarViS (Swin-T)
Semantic Segmentation	VIPSeg	STQ	43.1	TarViS (ResNet-50)
Semantic Segmentation	VIPSeg	VPQ	33.5	TarViS (ResNet-50)
Semantic Segmentation	KITTI-STEP	AQ	72	TarViS (Swin-L)
Semantic Segmentation	KITTI-STEP	SQ	72	TarViS (Swin-L)
Semantic Segmentation	KITTI-STEP	STQ	73	TarViS (Swin-L)
Semantic Segmentation	KITTI-STEP	AQ	71.2	TarViS (Swin-T)
Semantic Segmentation	KITTI-STEP	SQ	69.9	TarViS (Swin-T)
Semantic Segmentation	KITTI-STEP	STQ	70.6	TarViS (Swin-T)
Semantic Segmentation	KITTI-STEP	AQ	70.3	TarViS (ResNet-50)
Semantic Segmentation	KITTI-STEP	SQ	68.8	TarViS (ResNet-50)
Semantic Segmentation	KITTI-STEP	STQ	69.6	TarViS (ResNet-50)
Video Object Segmentation	DAVIS 2017 (val)	F-measure (Mean)	88.5	TarViS
Video Object Segmentation	DAVIS 2017 (val)	J&F	85.3	TarViS
Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Mean)	81.7	TarViS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	F-measure (Mean)	88.5	TarViS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	J&F	85.3	TarViS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Mean)	81.7	TarViS
Video Instance Segmentation	YouTube-VIS 2021	AP50	81.4	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AP75	67.6	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR1	47.6	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR10	64.8	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	60.2	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AP50	71.6	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	AP75	56.6	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	AR1	42.2	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	AR10	57.2	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	50.9	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	AP50	69.6	TarViS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AP75	53.2	TarViS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AR1	40.5	TarViS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AR10	55.9	TarViS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	48.3	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	AP50	67.8	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	AP75	44.6	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	AR1	18	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	AR10	50.4	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	mask AP	43.2	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	AP50	55	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	AP75	34.4	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	AR1	16.1	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	AR10	40.9	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	mask AP	34	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	AP50	52.5	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	AP75	30.4	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	AR1	15.9	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	AR10	39.9	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	mask AP	31.1	TarViS (ResNet-50)
10-shot image generation	Cityscapes-VPS	VPQ	58.9	TarViS (Swin-L)
10-shot image generation	Cityscapes-VPS	VPQ (stuff)	69.9	TarViS (Swin-L)
10-shot image generation	Cityscapes-VPS	VPQ (thing)	43.7	TarViS (Swin-L)
10-shot image generation	Cityscapes-VPS	VPQ	58	TarViS (Swin-T)
10-shot image generation	Cityscapes-VPS	VPQ (stuff)	69	TarViS (Swin-T)
10-shot image generation	Cityscapes-VPS	VPQ (thing)	42.9	TarViS (Swin-T)
10-shot image generation	Cityscapes-VPS	VPQ	53.3	TarViS (ResNet-50)
10-shot image generation	Cityscapes-VPS	VPQ (stuff)	66	TarViS (ResNet-50)
10-shot image generation	Cityscapes-VPS	VPQ (thing)	35.9	TarViS (ResNet-50)
10-shot image generation	VIPSeg	STQ	52.9	TarViS (Swin-L)
10-shot image generation	VIPSeg	VPQ	48	TarViS (Swin-L)
10-shot image generation	VIPSeg	STQ	45.3	TarViS (Swin-T)
10-shot image generation	VIPSeg	VPQ	35.8	TarViS (Swin-T)
10-shot image generation	VIPSeg	STQ	43.1	TarViS (ResNet-50)
10-shot image generation	VIPSeg	VPQ	33.5	TarViS (ResNet-50)
10-shot image generation	KITTI-STEP	AQ	72	TarViS (Swin-L)
10-shot image generation	KITTI-STEP	SQ	72	TarViS (Swin-L)
10-shot image generation	KITTI-STEP	STQ	73	TarViS (Swin-L)
10-shot image generation	KITTI-STEP	AQ	71.2	TarViS (Swin-T)
10-shot image generation	KITTI-STEP	SQ	69.9	TarViS (Swin-T)
10-shot image generation	KITTI-STEP	STQ	70.6	TarViS (Swin-T)
10-shot image generation	KITTI-STEP	AQ	70.3	TarViS (ResNet-50)
10-shot image generation	KITTI-STEP	SQ	68.8	TarViS (ResNet-50)
10-shot image generation	KITTI-STEP	STQ	69.6	TarViS (ResNet-50)
Panoptic Segmentation	Cityscapes-VPS	VPQ	58.9	TarViS (Swin-L)
Panoptic Segmentation	Cityscapes-VPS	VPQ (stuff)	69.9	TarViS (Swin-L)
Panoptic Segmentation	Cityscapes-VPS	VPQ (thing)	43.7	TarViS (Swin-L)
Panoptic Segmentation	Cityscapes-VPS	VPQ	58	TarViS (Swin-T)
Panoptic Segmentation	Cityscapes-VPS	VPQ (stuff)	69	TarViS (Swin-T)
Panoptic Segmentation	Cityscapes-VPS	VPQ (thing)	42.9	TarViS (Swin-T)
Panoptic Segmentation	Cityscapes-VPS	VPQ	53.3	TarViS (ResNet-50)
Panoptic Segmentation	Cityscapes-VPS	VPQ (stuff)	66	TarViS (ResNet-50)
Panoptic Segmentation	Cityscapes-VPS	VPQ (thing)	35.9	TarViS (ResNet-50)
Panoptic Segmentation	VIPSeg	STQ	52.9	TarViS (Swin-L)
Panoptic Segmentation	VIPSeg	VPQ	48	TarViS (Swin-L)
Panoptic Segmentation	VIPSeg	STQ	45.3	TarViS (Swin-T)
Panoptic Segmentation	VIPSeg	VPQ	35.8	TarViS (Swin-T)
Panoptic Segmentation	VIPSeg	STQ	43.1	TarViS (ResNet-50)
Panoptic Segmentation	VIPSeg	VPQ	33.5	TarViS (ResNet-50)
Panoptic Segmentation	KITTI-STEP	AQ	72	TarViS (Swin-L)
Panoptic Segmentation	KITTI-STEP	SQ	72	TarViS (Swin-L)
Panoptic Segmentation	KITTI-STEP	STQ	73	TarViS (Swin-L)
Panoptic Segmentation	KITTI-STEP	AQ	71.2	TarViS (Swin-T)
Panoptic Segmentation	KITTI-STEP	SQ	69.9	TarViS (Swin-T)
Panoptic Segmentation	KITTI-STEP	STQ	70.6	TarViS (Swin-T)
Panoptic Segmentation	KITTI-STEP	AQ	70.3	TarViS (ResNet-50)
Panoptic Segmentation	KITTI-STEP	SQ	68.8	TarViS (ResNet-50)
Panoptic Segmentation	KITTI-STEP	STQ	69.6	TarViS (ResNet-50)

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	DAVIS 2017 (val)	F-measure (Mean)	88.5	TarViS
Video	DAVIS 2017 (val)	J&F	85.3	TarViS
Video	DAVIS 2017 (val)	Jaccard (Mean)	81.7	TarViS
Semantic Segmentation	Cityscapes-VPS	VPQ	58.9	TarViS (Swin-L)
Semantic Segmentation	Cityscapes-VPS	VPQ (stuff)	69.9	TarViS (Swin-L)
Semantic Segmentation	Cityscapes-VPS	VPQ (thing)	43.7	TarViS (Swin-L)
Semantic Segmentation	Cityscapes-VPS	VPQ	58	TarViS (Swin-T)
Semantic Segmentation	Cityscapes-VPS	VPQ (stuff)	69	TarViS (Swin-T)
Semantic Segmentation	Cityscapes-VPS	VPQ (thing)	42.9	TarViS (Swin-T)
Semantic Segmentation	Cityscapes-VPS	VPQ	53.3	TarViS (ResNet-50)
Semantic Segmentation	Cityscapes-VPS	VPQ (stuff)	66	TarViS (ResNet-50)
Semantic Segmentation	Cityscapes-VPS	VPQ (thing)	35.9	TarViS (ResNet-50)
Semantic Segmentation	VIPSeg	STQ	52.9	TarViS (Swin-L)
Semantic Segmentation	VIPSeg	VPQ	48	TarViS (Swin-L)
Semantic Segmentation	VIPSeg	STQ	45.3	TarViS (Swin-T)
Semantic Segmentation	VIPSeg	VPQ	35.8	TarViS (Swin-T)
Semantic Segmentation	VIPSeg	STQ	43.1	TarViS (ResNet-50)
Semantic Segmentation	VIPSeg	VPQ	33.5	TarViS (ResNet-50)
Semantic Segmentation	KITTI-STEP	AQ	72	TarViS (Swin-L)
Semantic Segmentation	KITTI-STEP	SQ	72	TarViS (Swin-L)
Semantic Segmentation	KITTI-STEP	STQ	73	TarViS (Swin-L)
Semantic Segmentation	KITTI-STEP	AQ	71.2	TarViS (Swin-T)
Semantic Segmentation	KITTI-STEP	SQ	69.9	TarViS (Swin-T)
Semantic Segmentation	KITTI-STEP	STQ	70.6	TarViS (Swin-T)
Semantic Segmentation	KITTI-STEP	AQ	70.3	TarViS (ResNet-50)
Semantic Segmentation	KITTI-STEP	SQ	68.8	TarViS (ResNet-50)
Semantic Segmentation	KITTI-STEP	STQ	69.6	TarViS (ResNet-50)
Video Object Segmentation	DAVIS 2017 (val)	F-measure (Mean)	88.5	TarViS
Video Object Segmentation	DAVIS 2017 (val)	J&F	85.3	TarViS
Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Mean)	81.7	TarViS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	F-measure (Mean)	88.5	TarViS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	J&F	85.3	TarViS
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	Jaccard (Mean)	81.7	TarViS
Video Instance Segmentation	YouTube-VIS 2021	AP50	81.4	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AP75	67.6	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR1	47.6	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR10	64.8	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	60.2	TarViS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AP50	71.6	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	AP75	56.6	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	AR1	42.2	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	AR10	57.2	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	50.9	TarViS (Swin-T)
Video Instance Segmentation	YouTube-VIS 2021	AP50	69.6	TarViS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AP75	53.2	TarViS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AR1	40.5	TarViS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AR10	55.9	TarViS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	48.3	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	AP50	67.8	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	AP75	44.6	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	AR1	18	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	AR10	50.4	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	mask AP	43.2	TarViS (Swin-L)
Video Instance Segmentation	OVIS validation	AP50	55	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	AP75	34.4	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	AR1	16.1	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	AR10	40.9	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	mask AP	34	TarViS (Swin-T)
Video Instance Segmentation	OVIS validation	AP50	52.5	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	AP75	30.4	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	AR1	15.9	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	AR10	39.9	TarViS (ResNet-50)
Video Instance Segmentation	OVIS validation	mask AP	31.1	TarViS (ResNet-50)
10-shot image generation	Cityscapes-VPS	VPQ	58.9	TarViS (Swin-L)
10-shot image generation	Cityscapes-VPS	VPQ (stuff)	69.9	TarViS (Swin-L)
10-shot image generation	Cityscapes-VPS	VPQ (thing)	43.7	TarViS (Swin-L)
10-shot image generation	Cityscapes-VPS	VPQ	58	TarViS (Swin-T)
10-shot image generation	Cityscapes-VPS	VPQ (stuff)	69	TarViS (Swin-T)
10-shot image generation	Cityscapes-VPS	VPQ (thing)	42.9	TarViS (Swin-T)
10-shot image generation	Cityscapes-VPS	VPQ	53.3	TarViS (ResNet-50)
10-shot image generation	Cityscapes-VPS	VPQ (stuff)	66	TarViS (ResNet-50)
10-shot image generation	Cityscapes-VPS	VPQ (thing)	35.9	TarViS (ResNet-50)
10-shot image generation	VIPSeg	STQ	52.9	TarViS (Swin-L)
10-shot image generation	VIPSeg	VPQ	48	TarViS (Swin-L)
10-shot image generation	VIPSeg	STQ	45.3	TarViS (Swin-T)
10-shot image generation	VIPSeg	VPQ	35.8	TarViS (Swin-T)
10-shot image generation	VIPSeg	STQ	43.1	TarViS (ResNet-50)
10-shot image generation	VIPSeg	VPQ	33.5	TarViS (ResNet-50)
10-shot image generation	KITTI-STEP	AQ	72	TarViS (Swin-L)
10-shot image generation	KITTI-STEP	SQ	72	TarViS (Swin-L)
10-shot image generation	KITTI-STEP	STQ	73	TarViS (Swin-L)
10-shot image generation	KITTI-STEP	AQ	71.2	TarViS (Swin-T)
10-shot image generation	KITTI-STEP	SQ	69.9	TarViS (Swin-T)
10-shot image generation	KITTI-STEP	STQ	70.6	TarViS (Swin-T)
10-shot image generation	KITTI-STEP	AQ	70.3	TarViS (ResNet-50)
10-shot image generation	KITTI-STEP	SQ	68.8	TarViS (ResNet-50)
10-shot image generation	KITTI-STEP	STQ	69.6	TarViS (ResNet-50)
Panoptic Segmentation	Cityscapes-VPS	VPQ	58.9	TarViS (Swin-L)
Panoptic Segmentation	Cityscapes-VPS	VPQ (stuff)	69.9	TarViS (Swin-L)
Panoptic Segmentation	Cityscapes-VPS	VPQ (thing)	43.7	TarViS (Swin-L)
Panoptic Segmentation	Cityscapes-VPS	VPQ	58	TarViS (Swin-T)
Panoptic Segmentation	Cityscapes-VPS	VPQ (stuff)	69	TarViS (Swin-T)
Panoptic Segmentation	Cityscapes-VPS	VPQ (thing)	42.9	TarViS (Swin-T)
Panoptic Segmentation	Cityscapes-VPS	VPQ	53.3	TarViS (ResNet-50)
Panoptic Segmentation	Cityscapes-VPS	VPQ (stuff)	66	TarViS (ResNet-50)
Panoptic Segmentation	Cityscapes-VPS	VPQ (thing)	35.9	TarViS (ResNet-50)
Panoptic Segmentation	VIPSeg	STQ	52.9	TarViS (Swin-L)
Panoptic Segmentation	VIPSeg	VPQ	48	TarViS (Swin-L)
Panoptic Segmentation	VIPSeg	STQ	45.3	TarViS (Swin-T)
Panoptic Segmentation	VIPSeg	VPQ	35.8	TarViS (Swin-T)
Panoptic Segmentation	VIPSeg	STQ	43.1	TarViS (ResNet-50)
Panoptic Segmentation	VIPSeg	VPQ	33.5	TarViS (ResNet-50)
Panoptic Segmentation	KITTI-STEP	AQ	72	TarViS (Swin-L)
Panoptic Segmentation	KITTI-STEP	SQ	72	TarViS (Swin-L)
Panoptic Segmentation	KITTI-STEP	STQ	73	TarViS (Swin-L)
Panoptic Segmentation	KITTI-STEP	AQ	71.2	TarViS (Swin-T)
Panoptic Segmentation	KITTI-STEP	SQ	69.9	TarViS (Swin-T)
Panoptic Segmentation	KITTI-STEP	STQ	70.6	TarViS (Swin-T)
Panoptic Segmentation	KITTI-STEP	AQ	70.3	TarViS (ResNet-50)
Panoptic Segmentation	KITTI-STEP	SQ	68.8	TarViS (ResNet-50)
Panoptic Segmentation	KITTI-STEP	STQ	69.6	TarViS (ResNet-50)

TarViS: A Unified Approach for Target-based Video Segmentation

Abstract

Results

Related Papers

TarViS: A Unified Approach for Target-based Video Segmentation

Abstract

Results

Related Papers