Context-Aware Video Instance Segmentation

Seunghun Lee, Jiwan Seo, Kiljoon Han, Minwoo Choi, Sunghoon Im

2024-07-03Panoptic Segmentation Video Panoptic Segmentation Segmentation Semantic Segmentation Instance Segmentation Video Instance Segmentation

Paper PDF Code(official)

Abstract

In this paper, we introduce the Context-Aware Video Instance Segmentation (CAVIS), a novel framework designed to enhance instance association by integrating contextual information adjacent to each object. To efficiently extract and leverage this information, we propose the Context-Aware Instance Tracker (CAIT), which merges contextual data surrounding the instances with the core instance features to improve tracking accuracy. Additionally, we introduce the Prototypical Cross-frame Contrastive (PCC) loss, which ensures consistency in object-level features across frames, thereby significantly enhancing instance matching accuracy. CAVIS demonstrates superior performance over state-of-the-art methods on all benchmark datasets in video instance segmentation (VIS) and video panoptic segmentation (VPS). Notably, our method excels on the OVIS dataset, which is known for its particularly challenging videos.

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	VIPSeg	STQ	56.1	CAVIS(VIT-L)
Semantic Segmentation	VIPSeg	VPQ	58.5	CAVIS(VIT-L)
Video Instance Segmentation	YouTube-VIS 2021	AP50	87.3	CAVIS(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS 2021	AP75	73.2	CAVIS(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS 2021	AR1	49.7	CAVIS(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS 2021	AR10	70.3	CAVIS(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS 2021	mask AP	65.3	CAVIS(VIT-L, Offline)
Video Instance Segmentation	YouTube-VIS validation	AP50	89.3	CAVIS(ViT-L, Online)
Video Instance Segmentation	YouTube-VIS validation	AP75	76.2	CAVIS(ViT-L, Online)
Video Instance Segmentation	YouTube-VIS validation	AR1	58.3	CAVIS(ViT-L, Online)
Video Instance Segmentation	YouTube-VIS validation	AR10	73.6	CAVIS(ViT-L, Online)
Video Instance Segmentation	YouTube-VIS validation	mask AP	68.9	CAVIS(ViT-L, Online)
Video Instance Segmentation	OVIS validation	AP50	82.6	CAVIS(VIT-L, Offline)
Video Instance Segmentation	OVIS validation	AP75	63.5	CAVIS(VIT-L, Offline)
Video Instance Segmentation	OVIS validation	AR1	21.2	CAVIS(VIT-L, Offline)
Video Instance Segmentation	OVIS validation	AR10	61.8	CAVIS(VIT-L, Offline)
Video Instance Segmentation	OVIS validation	mask AP	57.1	CAVIS(VIT-L, Offline)
Video Instance Segmentation	Youtube-VIS 2022 Validation	mAP_L	48.6	CAVIS (VIT-L)
10-shot image generation	VIPSeg	STQ	56.1	CAVIS(VIT-L)
10-shot image generation	VIPSeg	VPQ	58.5	CAVIS(VIT-L)
Panoptic Segmentation	VIPSeg	STQ	56.1	CAVIS(VIT-L)
Panoptic Segmentation	VIPSeg	VPQ	58.5	CAVIS(VIT-L)

Context-Aware Video Instance Segmentation

Abstract

Results

Related Papers

Context-Aware Video Instance Segmentation

Abstract

Results

Related Papers