InstanceFormer: An Online Video Instance Segmentation Framework

Rajat Koner, Tanveer Hannan, Suprosanna Shit, Sahand Sharifzadeh, Matthias Schubert, Thomas Seidl, Volker Tresp

2022-08-22Semantic Segmentation Instance Segmentation Video Instance Segmentation

Abstract

Recent transformer-based offline video instance segmentation (VIS) approaches achieve encouraging results and significantly outperform online approaches. However, their reliance on the whole video and the immense computational complexity caused by full Spatio-temporal attention limit them in real-life applications such as processing lengthy videos. In this paper, we propose a single-stage transformer-based efficient online VIS framework named InstanceFormer, which is especially suitable for long and challenging videos. We propose three novel components to model short-term and long-term dependency and temporal coherence. First, we propagate the representation, location, and semantic information of prior instances to model short-term changes. Second, we propose a novel memory cross-attention in the decoder, which allows the network to look into earlier instances within a certain temporal window. Finally, we employ a temporal contrastive loss to impose coherence in the representation of an instance across all frames. Memory attention and temporal coherence are particularly beneficial to long-range dependency modeling, including challenging scenarios like occlusion. The proposed InstanceFormer outperforms previous online benchmark methods by a large margin across multiple datasets. Most importantly, InstanceFormer surpasses offline approaches for challenging and long datasets such as YouTube-VIS-2021 and OVIS. Code is available at https://github.com/rajatkoner08/InstanceFormer.

Results

Task	Dataset	Metric	Value	Model
Video Instance Segmentation	YouTube-VIS 2021	AP50	73.7	InstanceFormer (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AP75	56.9	InstanceFormer (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR1	42.8	InstanceFormer (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AR10	56	InstanceFormer (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	51	InstanceFormer (Swin-L)
Video Instance Segmentation	YouTube-VIS 2021	AP50	62.4	InstanceFormer (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AP75	43.7	InstanceFormer (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AR1	36.1	InstanceFormer (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	AR10	48.1	InstanceFormer (ResNet-50)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	40.8	InstanceFormer (ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	AP50	78	InstanceFormer(Swin-L)
Video Instance Segmentation	YouTube-VIS validation	AP75	64.2	InstanceFormer(Swin-L)
Video Instance Segmentation	YouTube-VIS validation	AR1	50.9	InstanceFormer(Swin-L)
Video Instance Segmentation	YouTube-VIS validation	AR10	61.6	InstanceFormer(Swin-L)
Video Instance Segmentation	YouTube-VIS validation	mask AP	56.3	InstanceFormer(Swin-L)
Video Instance Segmentation	YouTube-VIS validation	AP50	68.6	InstanceFormer(ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	AP75	49.6	InstanceFormer(ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	AR1	42.1	InstanceFormer(ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	AR10	53.5	InstanceFormer(ResNet-50)
Video Instance Segmentation	YouTube-VIS validation	mask AP	45.6	InstanceFormer(ResNet-50)
Video Instance Segmentation	OVIS validation	AP50	42.5	InstanceFormer (Swin-L)
Video Instance Segmentation	OVIS validation	AP75	21.61	InstanceFormer (Swin-L)
Video Instance Segmentation	OVIS validation	AR1	12.9	InstanceFormer (Swin-L)
Video Instance Segmentation	OVIS validation	AR10	29.3	InstanceFormer (Swin-L)
Video Instance Segmentation	OVIS validation	mask AP	22.8	InstanceFormer (Swin-L)
Video Instance Segmentation	OVIS validation	AP50	40.7	InstanceFormer(ResNet-50)
Video Instance Segmentation	OVIS validation	AP75	18.1	InstanceFormer(ResNet-50)
Video Instance Segmentation	OVIS validation	AR1	12	InstanceFormer(ResNet-50)
Video Instance Segmentation	OVIS validation	AR10	27.1	InstanceFormer(ResNet-50)
Video Instance Segmentation	OVIS validation	mask AP	20	InstanceFormer(ResNet-50)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AP50_L	44.6	InstanceFormer (Swin)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AP75_L	27.3	InstanceFormer (Swin)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AR10_L	29.2	InstanceFormer (Swin)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AR1_L	25	InstanceFormer (Swin)
Video Instance Segmentation	Youtube-VIS 2022 Validation	mAP_L	26.3	InstanceFormer (Swin)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AP50_L	49.5	InstanceFormer (Resnet-50)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AP75_L	26.7	InstanceFormer (Resnet-50)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AR10_L	30.1	InstanceFormer (Resnet-50)
Video Instance Segmentation	Youtube-VIS 2022 Validation	AR1_L	23.9	InstanceFormer (Resnet-50)
Video Instance Segmentation	Youtube-VIS 2022 Validation	mAP_L	24.8	InstanceFormer (Resnet-50)

InstanceFormer: An Online Video Instance Segmentation Framework

Abstract

Results

Related Papers

InstanceFormer: An Online Video Instance Segmentation Framework

Abstract

Results

Related Papers