Video Instance Segmentation on YouTube-VIS validation

Metric: AR10 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	AR10▼	Extra Data	Paper	Date↕	Code
1	DVIS++(ViT-L, Online)	73.7	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
2	CAVIS(ViT-L, Online)	73.6	Yes	Context-Aware Video Instance Segmentation	2024-07-03	Code
3	DVIS	70.3	Yes	DVIS: Decoupled Video Instance Segmentation Fram...	2023-06-06	Code
4	Tube-Link	69.1	No	Tube-Link: A Flexible Cross Tube Framework for U...	2023-03-22	Code
5	UniVS(Swin-L)	66.8	Yes	UniVS: Unified and Universal Video Segmentation ...	2024-02-28	Code
6	MinVIS (Swin-L)	66.6	No	MinVIS: A Minimal Video Instance Segmentation Fr...	2022-08-03	Code
7	MDQE(Swin-L)	65	No	MDQE: Mining Discriminative Query Embeddings to ...	2023-03-25	Code
8	SeqFormer (Swin-L)	64.4	Yes	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
9	InstanceFormer(Swin-L)	61.6	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
10	DeVIS (Swin-L)	61	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
11	NOVIS (ResNet-50)	60.6	Yes	NOVIS: A Case for End-to-End Near-Online Video I...	2023-08-29	-
12	Video K-Net (Swin-Base)	59.9	No	Video K-Net: A Simple, Strong, and Unified Basel...	2022-04-10	Code
13	IDOL (ResNet-50)	58.7	No	In Defense of Online Models for Video Instance S...	2022-07-21	Code
14	TCIS (Swin-S)	57.9	No	1st Place Solution for YouTubeVOS Challenge 2021...	2021-06-12	-
15	SeqFormer (ResNet-101)	56.9	Yes	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
16	MSN	55	No	MSN: Efficient Online Mask Selection Network for...	2021-06-19	Code
17	SeqFormer (ResNet-50)	54.8	Yes	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
18	SeqFormer (ResNet-50)	54.6	No	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
19	InstanceFormer(ResNet-50)	53.5	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
20	DeVIS (ResNet-50)	51.6	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
21	IFC (ResNet-50)	51.2	No	Video Instance Segmentation using Inter-Frame Co...	2021-06-07	Code
22	ObjProp (ResNet-50)	47.7	No	Object Propagation via Inter-Frame Attentions fo...	2021-11-15	Code
23	VisTR(ResNet-101)	44.9	No	End-to-End Video Instance Segmentation with Tran...	2020-11-30	Code
24	STC (ResNet-50)	44.5	No	STC: Spatio-Temporal Contrastive Learning for Vi...	2022-02-08	-
25	VisTR(ResNet-50)	42.4	No	End-to-End Video Instance Segmentation with Tran...	2020-11-30	Code
26	CrossVIS (ResNet-101)	42	No	Crossover Learning for Fast Online Video Instanc...	2021-04-13	Code
27	STMask(R101-DCN-FPN)	41.8	No	Spatial Feature Calibration and Temporal Fusion ...	2021-04-06	Code
28	PCAN(ResNet-50)	41.6	No	Prototypical Cross-Attention Networks for Multip...	2021-06-22	Code
29	STEm-Seg (ResNet-101)	41.6	No	STEm-Seg: Spatio-temporal Embeddings for Instanc...	2020-03-18	Code
30	STEm-Seg (ResNet-50)	41.6	No	STEm-Seg: Spatio-temporal Embeddings for Instanc...	2020-03-18	Code
31	CompFeat(ResNet-50)	40.3	No	CompFeat: Comprehensive Feature Aggregation for ...	2020-12-07	Code
32	SipMask (ResNet-50, ms-train, single-scale test)	40.1	No	SipMask: Spatial Information Preservation for Fa...	2020-07-29	Code
33	SipMask (ResNet-50, single-scale test)	38.9	No	SipMask: Spatial Information Preservation for Fa...	2020-07-29	Code
34	MaskTrack R-CNN (ResNet-50, single-scale training and test)	35.5	No	Video Instance Segmentation	2019-05-12	Code

#1DVIS++(ViT-L, Online)SOTA
73.7
AR10· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#2CAVIS(ViT-L, Online)
73.6
AR10· Extra Data· 2024-07-03
Context-Aware Video Instance Segmentation Code
#3DVISSOTA
70.3
AR10· Extra Data· 2023-06-06
DVIS: Decoupled Video Instance Segmentation Framework Code
#4Tube-LinkSOTA
69.1
AR10· 2023-03-22
Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation Code
#5UniVS(Swin-L)
66.8
AR10· Extra Data· 2024-02-28
UniVS: Unified and Universal Video Segmentation with Prompts as Queries Code
#6MinVIS (Swin-L)SOTA
66.6
AR10· 2022-08-03
MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training Code
#7MDQE(Swin-L)
65
AR10· 2023-03-25
MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos Code
#8SeqFormer (Swin-L)SOTA
64.4
AR10· Extra Data· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#9InstanceFormer(Swin-L)
61.6
AR10· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#10DeVIS (Swin-L)
61
AR10· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#11NOVIS (ResNet-50)
60.6
AR10· Extra Data· 2023-08-29
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation
#12Video K-Net (Swin-Base)
59.9
AR10· 2022-04-10
Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation Code
#13IDOL (ResNet-50)
58.7
AR10· 2022-07-21
In Defense of Online Models for Video Instance Segmentation Code
#14TCIS (Swin-S)SOTA
57.9
AR10· 2021-06-12
1st Place Solution for YouTubeVOS Challenge 2021:Video Instance Segmentation
#15SeqFormer (ResNet-101)
56.9
AR10· Extra Data· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#16MSN
55
AR10· 2021-06-19
MSN: Efficient Online Mask Selection Network for Video Instance Segmentation Code
#17SeqFormer (ResNet-50)
54.8
AR10· Extra Data· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#18SeqFormer (ResNet-50)
54.6
AR10· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#19InstanceFormer(ResNet-50)
53.5
AR10· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#20DeVIS (ResNet-50)
51.6
AR10· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#21IFC (ResNet-50)SOTA
51.2
AR10· 2021-06-07
Video Instance Segmentation using Inter-Frame Communication Transformers Code
#22ObjProp (ResNet-50)
47.7
AR10· 2021-11-15
Object Propagation via Inter-Frame Attentions for Temporally Stable Video Instance Segmentation Code
#23VisTR(ResNet-101)SOTA
44.9
AR10· 2020-11-30
End-to-End Video Instance Segmentation with Transformers Code
#24STC (ResNet-50)
44.5
AR10· 2022-02-08
STC: Spatio-Temporal Contrastive Learning for Video Instance Segmentation
#25VisTR(ResNet-50)
42.4
AR10· 2020-11-30
End-to-End Video Instance Segmentation with Transformers Code
#26CrossVIS (ResNet-101)
42
AR10· 2021-04-13
Crossover Learning for Fast Online Video Instance Segmentation Code
#27STMask(R101-DCN-FPN)
41.8
AR10· 2021-04-06
Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation Code
#28PCAN(ResNet-50)
41.6
AR10· 2021-06-22
Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation Code
#29STEm-Seg (ResNet-101)SOTA
41.6
AR10· 2020-03-18
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos Code
#30STEm-Seg (ResNet-50)
41.6
AR10· 2020-03-18
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos Code
#31CompFeat(ResNet-50)
40.3
AR10· 2020-12-07
CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation Code
#32SipMask (ResNet-50, ms-train, single-scale test)
40.1
AR10· 2020-07-29
SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation Code
#33SipMask (ResNet-50, single-scale test)
38.9
AR10· 2020-07-29
SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation Code
#34MaskTrack R-CNN (ResNet-50, single-scale training and test)SOTA
35.5
AR10· 2019-05-12
Video Instance Segmentation Code