Video Instance Segmentation on YouTube-VIS validation

Metric: AR1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	AR1▼	Extra Data	Paper	Date↕	Code
1	CAVIS(ViT-L, Online)	58.3	Yes	Context-Aware Video Instance Segmentation	2024-07-03	Code
2	DVIS++(ViT-L, Online)	57.9	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
3	DVIS	56.5	Yes	DVIS: Decoupled Video Instance Segmentation Fram...	2023-06-06	Code
4	Tube-Link	55.9	No	Tube-Link: A Flexible Cross Tube Framework for U...	2023-03-22	Code
5	MinVIS (Swin-L)	54.8	No	MinVIS: A Minimal Video Instance Segmentation Fr...	2022-08-03	Code
6	UniVS(Swin-L)	54.7	Yes	UniVS: Unified and Universal Video Segmentation ...	2024-02-28	Code
7	MDQE(Swin-L)	53.5	No	MDQE: Mining Discriminative Query Embeddings to ...	2023-03-25	Code
8	SeqFormer (Swin-L)	51.7	Yes	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
9	InstanceFormer(Swin-L)	50.9	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
10	DeVIS (Swin-L)	50.8	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
11	NOVIS (ResNet-50)	50.3	Yes	NOVIS: A Case for End-to-End Near-Online Video I...	2023-08-29	-
12	Video K-Net (Swin-Base)	49.7	No	Video K-Net: A Simple, Strong, and Unified Basel...	2022-04-10	Code
13	IDOL (ResNet-50)	47.7	No	In Defense of Online Models for Video Instance S...	2022-07-21	Code
14	TCIS (Swin-S)	47	No	1st Place Solution for YouTubeVOS Challenge 2021...	2021-06-12	-
15	SeqFormer (ResNet-101)	46.8	Yes	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
16	SeqFormer (ResNet-50)	45.6	No	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
17	SeqFormer (ResNet-50)	45.5	Yes	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
18	IFC (ResNet-50)	43.8	No	Video Instance Segmentation using Inter-Frame Co...	2021-06-07	Code
19	DeVIS (ResNet-50)	42.4	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
20	InstanceFormer(ResNet-50)	42.1	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
21	MSN	40.1	No	MSN: Efficient Online Mask Selection Network for...	2021-06-19	Code
22	ObjProp (ResNet-50)	39.1	No	Object Propagation via Inter-Frame Attentions fo...	2021-11-15	Code
23	VisTR(ResNet-101)	38.3	No	End-to-End Video Instance Segmentation with Tran...	2020-11-30	Code
24	VisTR(ResNet-50)	37.2	No	End-to-End Video Instance Segmentation with Tran...	2020-11-30	Code
25	STC (ResNet-50)	36.9	No	STC: Spatio-Temporal Contrastive Learning for Vi...	2022-02-08	-
26	PCAN(ResNet-50)	36.3	No	Prototypical Cross-Attention Networks for Multip...	2021-06-22	Code
27	CrossVIS (ResNet-101)	36	No	Crossover Learning for Fast Online Video Instanc...	2021-04-13	Code
28	SipMask (ResNet-50, ms-train, single-scale test)	35.4	No	SipMask: Spatial Information Preservation for Fa...	2020-07-29	Code
29	STMask(R101-DCN-FPN)	34.8	No	Spatial Feature Calibration and Temporal Fusion ...	2021-04-06	Code
30	STEm-Seg (ResNet-101)	34.4	No	STEm-Seg: Spatio-temporal Embeddings for Instanc...	2020-03-18	Code
31	STEm-Seg (ResNet-50)	34.4	No	STEm-Seg: Spatio-temporal Embeddings for Instanc...	2020-03-18	Code
32	SipMask (ResNet-50, single-scale test)	33.5	No	SipMask: Spatial Information Preservation for Fa...	2020-07-29	Code
33	CompFeat(ResNet-50)	33.1	No	CompFeat: Comprehensive Feature Aggregation for ...	2020-12-07	Code
34	MaskTrack R-CNN (ResNet-50, single-scale training and test)	31	No	Video Instance Segmentation	2019-05-12	Code

#1CAVIS(ViT-L, Online)SOTA
58.3
AR1· Extra Data· 2024-07-03
Context-Aware Video Instance Segmentation Code
#2DVIS++(ViT-L, Online)SOTA
57.9
AR1· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#3DVISSOTA
56.5
AR1· Extra Data· 2023-06-06
DVIS: Decoupled Video Instance Segmentation Framework Code
#4Tube-LinkSOTA
55.9
AR1· 2023-03-22
Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation Code
#5MinVIS (Swin-L)SOTA
54.8
AR1· 2022-08-03
MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training Code
#6UniVS(Swin-L)
54.7
AR1· Extra Data· 2024-02-28
UniVS: Unified and Universal Video Segmentation with Prompts as Queries Code
#7MDQE(Swin-L)
53.5
AR1· 2023-03-25
MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos Code
#8SeqFormer (Swin-L)SOTA
51.7
AR1· Extra Data· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#9InstanceFormer(Swin-L)
50.9
AR1· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#10DeVIS (Swin-L)
50.8
AR1· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#11NOVIS (ResNet-50)
50.3
AR1· Extra Data· 2023-08-29
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation
#12Video K-Net (Swin-Base)
49.7
AR1· 2022-04-10
Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation Code
#13IDOL (ResNet-50)
47.7
AR1· 2022-07-21
In Defense of Online Models for Video Instance Segmentation Code
#14TCIS (Swin-S)SOTA
47
AR1· 2021-06-12
1st Place Solution for YouTubeVOS Challenge 2021:Video Instance Segmentation
#15SeqFormer (ResNet-101)
46.8
AR1· Extra Data· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#16SeqFormer (ResNet-50)
45.6
AR1· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#17SeqFormer (ResNet-50)
45.5
AR1· Extra Data· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#18IFC (ResNet-50)SOTA
43.8
AR1· 2021-06-07
Video Instance Segmentation using Inter-Frame Communication Transformers Code
#19DeVIS (ResNet-50)
42.4
AR1· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#20InstanceFormer(ResNet-50)
42.1
AR1· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#21MSN
40.1
AR1· 2021-06-19
MSN: Efficient Online Mask Selection Network for Video Instance Segmentation Code
#22ObjProp (ResNet-50)
39.1
AR1· 2021-11-15
Object Propagation via Inter-Frame Attentions for Temporally Stable Video Instance Segmentation Code
#23VisTR(ResNet-101)SOTA
38.3
AR1· 2020-11-30
End-to-End Video Instance Segmentation with Transformers Code
#24VisTR(ResNet-50)
37.2
AR1· 2020-11-30
End-to-End Video Instance Segmentation with Transformers Code
#25STC (ResNet-50)
36.9
AR1· 2022-02-08
STC: Spatio-Temporal Contrastive Learning for Video Instance Segmentation
#26PCAN(ResNet-50)
36.3
AR1· 2021-06-22
Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation Code
#27CrossVIS (ResNet-101)
36
AR1· 2021-04-13
Crossover Learning for Fast Online Video Instance Segmentation Code
#28SipMask (ResNet-50, ms-train, single-scale test)SOTA
35.4
AR1· 2020-07-29
SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation Code
#29STMask(R101-DCN-FPN)
34.8
AR1· 2021-04-06
Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation Code
#30STEm-Seg (ResNet-101)SOTA
34.4
AR1· 2020-03-18
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos Code
#31STEm-Seg (ResNet-50)
34.4
AR1· 2020-03-18
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos Code
#32SipMask (ResNet-50, single-scale test)
33.5
AR1· 2020-07-29
SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation Code
#33CompFeat(ResNet-50)
33.1
AR1· 2020-12-07
CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation Code
#34MaskTrack R-CNN (ResNet-50, single-scale training and test)SOTA
31
AR1· 2019-05-12
Video Instance Segmentation Code