DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

Adrià Caelles, Tim Meinhardt, Guillem Brasó, Laura Leal-Taixé

2022-07-22Segmentation Semantic Segmentation Instance Segmentation Video Instance Segmentation object-detection Object Detection

Paper PDF Code(official)

Abstract

Video Instance Segmentation (VIS) jointly tackles multi-object detection, tracking, and segmentation in video sequences. In the past, VIS methods mirrored the fragmentation of these subtasks in their architectural design, hence missing out on a joint solution. Transformers recently allowed to cast the entire VIS task as a single set-prediction problem. Nevertheless, the quadratic complexity of existing Transformer-based methods requires long training times, high memory requirements, and processing of low-single-scale feature maps. Deformable attention provides a more efficient alternative but its application to the temporal domain or the segmentation task have not yet been explored. In this work, we present Deformable VIS (DeVIS), a VIS method which capitalizes on the efficiency and performance of deformable Transformers. To reason about all VIS subtasks jointly over multiple frames, we present temporal multi-scale deformable attention with instance-aware object queries. We further introduce a new image and video instance mask head with multi-scale features, and perform near-online video processing with multi-cue clip tracking. DeVIS reduces memory as well as training time requirements, and achieves state-of-the-art results on the YouTube-VIS 2021, as well as the challenging OVIS dataset. Code is available at https://github.com/acaelles97/DeVIS.

Results

Task	Dataset	Metric	Value	Model
Video Instance Segmentation	YouTube-VIS 2021	AP50	77.7	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AP75	59.8	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR1	43.8	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR10	57.8	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	54.4	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AP50	66.8	DeVIS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AP75	46.6	DeVIS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AR1	38	DeVIS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AR10	50.1	DeVIS (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	43.1	DeVIS (ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	AP50	80.8	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS validation	AP75	66.3	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS validation	AR1	50.8	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS validation	AR10	61	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS validation	mask AP	57.1	DeVIS (Swin-L)
Video Instance Segmentation	YouTube-VIS validation	AP50	66.7	DeVIS (ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	AP75	48.6	DeVIS (ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	AR1	42.4	DeVIS (ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	AR10	51.6	DeVIS (ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	mask AP	44.4	DeVIS (ResNet-50)
Video Instance Segmentation	OVIS validation	AP50	59.3	DeVIS (Swin-L)
Video Instance Segmentation	OVIS validation	AP75	38.3	DeVIS (Swin-L)
Video Instance Segmentation	OVIS validation	AR1	16.6	DeVIS (Swin-L)
Video Instance Segmentation	OVIS validation	AR10	39.8	DeVIS (Swin-L)
Video Instance Segmentation	OVIS validation	mask AP	35.5	DeVIS (Swin-L)
Video Instance Segmentation	OVIS validation	AP50	47.6	DeVIS (ResNet-50)
Video Instance Segmentation	OVIS validation	AP75	20.8	DeVIS (ResNet-50)
Video Instance Segmentation	OVIS validation	AR1	12	DeVIS (ResNet-50)
Video Instance Segmentation	OVIS validation	AR10	28.9	DeVIS (ResNet-50)
Video Instance Segmentation	OVIS validation	mask AP	23.7	DeVIS (ResNet-50)

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

Abstract

Results

Related Papers

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

Abstract

Results

Related Papers