Video Instance Segmentation on YouTube-VIS validation

Metric: AP75 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	AP75▼	Extra Data	Paper	Date↕	Code
1	CAVIS(ViT-L, Online)	76.2	Yes	Context-Aware Video Instance Segmentation	2024-07-03	Code
2	DVIS++(ViT-L, Online)	75.3	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
3	DVIS	72.7	Yes	DVIS: Decoupled Video Instance Segmentation Fram...	2023-06-06	Code
4	Tube-Link	71.3	No	Tube-Link: A Flexible Cross Tube Framework for U...	2023-03-22	Code
5	MinVIS (Swin-L)	68.6	No	MinVIS: A Minimal Video Instance Segmentation Fr...	2022-08-03	Code
6	MDQE(Swin-L)	67.3	No	MDQE: Mining Discriminative Query Embeddings to ...	2023-03-25	Code
7	Mask2Former (Swin-L)	67	No	Mask2Former for Video Instance Segmentation	2021-12-20	Code
8	SeqFormer (Swin-L)	66.4	Yes	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
9	DeVIS (Swin-L)	66.3	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
10	TCIS (Swin-S)	65.6	No	1st Place Solution for YouTubeVOS Challenge 2021...	2021-06-12	-
11	UniVS(Swin-L)	65.3	Yes	UniVS: Unified and Universal Video Segmentation ...	2024-02-28	Code
12	InstanceFormer(Swin-L)	64.2	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
13	Video K-Net (Swin-Base)	59.6	No	Video K-Net: A Simple, Strong, and Unified Basel...	2022-04-10	Code
14	NOVIS (ResNet-50)	56.9	Yes	NOVIS: A Case for End-to-End Near-Online Video I...	2023-08-29	-
15	SeqFormer (ResNet-101)	55.7	Yes	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
16	MSN	54.9	No	MSN: Efficient Online Mask Selection Network for...	2021-06-19	Code
17	Mask2Former (ResNet-101)	54.2	No	Mask2Former for Video Instance Segmentation	2021-12-20	Code
18	IDOL (ResNet-50)	52.9	No	In Defense of Online Models for Video Instance S...	2022-07-21	Code
19	SeqFormer (ResNet-50)	51.8	Yes	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
20	SeqFormer (ResNet-50)	50.5	No	SeqFormer: Sequential Transformer for Video Inst...	2021-12-15	Code
21	Mask2Former (ResNet-50)	50	No	Mask2Former for Video Instance Segmentation	2021-12-20	Code
22	InstanceFormer(ResNet-50)	49.6	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
23	DeVIS (ResNet-50)	48.6	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
24	IFC (ResNet-50)	46.8	No	Video Instance Segmentation using Inter-Frame Co...	2021-06-07	Code
25	VisTR(ResNet-101)	45	No	End-to-End Video Instance Segmentation with Tran...	2020-11-30	Code
26	CrossVIS (ResNet-101)	39.7	No	Crossover Learning for Fast Online Video Instanc...	2021-04-13	Code
27	PCAN(ResNet-50)	39.4	No	Prototypical Cross-Attention Networks for Multip...	2021-06-22	Code
28	ObjProp (ResNet-50)	39.2	No	Object Propagation via Inter-Frame Attentions fo...	2021-11-15	Code
29	STC (ResNet-50)	38.6	No	STC: Spatio-Temporal Contrastive Learning for Vi...	2022-02-08	-
30	CompFeat(ResNet-50)	38.6	No	CompFeat: Comprehensive Feature Aggregation for ...	2020-12-07	Code
31	CSipMask	38.1	No	Occluded Video Instance Segmentation: A Benchmark	2021-02-02	Code
32	STMask(R101-DCN-FPN)	38	No	Spatial Feature Calibration and Temporal Fusion ...	2021-04-06	Code
33	STEm-Seg (ResNet-101)	37.9	No	STEm-Seg: Spatio-temporal Embeddings for Instanc...	2020-03-18	Code
34	STEm-Seg (ResNet-50)	37.9	No	STEm-Seg: Spatio-temporal Embeddings for Instanc...	2020-03-18	Code
35	VisTR(ResNet-50)	36.9	No	End-to-End Video Instance Segmentation with Tran...	2020-11-30	Code
36	SipMask (ResNet-50, ms-train, single-scale test)	35.8	No	SipMask: Spatial Information Preservation for Fa...	2020-07-29	Code
37	CMaskTrack R-CNN	34.9	No	Occluded Video Instance Segmentation: A Benchmark	2021-02-02	Code
38	SipMask (ResNet-50, single-scale test)	33.3	No	SipMask: Spatial Information Preservation for Fa...	2020-07-29	Code
39	OSMN	33.1	No	Efficient Video Object Segmentation via Network ...	2018-02-04	Code
40	TraDeS	32.8	No	Track to Detect and Segment: An Online Multi-Obj...	2021-03-16	Code
41	MaskTrack R-CNN (ResNet-50, single-scale training and test)	32.6	No	Video Instance Segmentation	2019-05-12	Code

#1CAVIS(ViT-L, Online)SOTA
76.2
AP75· Extra Data· 2024-07-03
Context-Aware Video Instance Segmentation Code
#2DVIS++(ViT-L, Online)SOTA
75.3
AP75· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#3DVISSOTA
72.7
AP75· Extra Data· 2023-06-06
DVIS: Decoupled Video Instance Segmentation Framework Code
#4Tube-LinkSOTA
71.3
AP75· 2023-03-22
Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation Code
#5MinVIS (Swin-L)SOTA
68.6
AP75· 2022-08-03
MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training Code
#6MDQE(Swin-L)
67.3
AP75· 2023-03-25
MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos Code
#7Mask2Former (Swin-L)SOTA
67
AP75· 2021-12-20
Mask2Former for Video Instance Segmentation Code
#8SeqFormer (Swin-L)SOTA
66.4
AP75· Extra Data· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#9DeVIS (Swin-L)
66.3
AP75· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#10TCIS (Swin-S)SOTA
65.6
AP75· 2021-06-12
1st Place Solution for YouTubeVOS Challenge 2021:Video Instance Segmentation
#11UniVS(Swin-L)
65.3
AP75· Extra Data· 2024-02-28
UniVS: Unified and Universal Video Segmentation with Prompts as Queries Code
#12InstanceFormer(Swin-L)
64.2
AP75· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#13Video K-Net (Swin-Base)
59.6
AP75· 2022-04-10
Video K-Net: A Simple, Strong, and Unified Baseline for Video Segmentation Code
#14NOVIS (ResNet-50)
56.9
AP75· Extra Data· 2023-08-29
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation
#15SeqFormer (ResNet-101)
55.7
AP75· Extra Data· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#16MSN
54.9
AP75· 2021-06-19
MSN: Efficient Online Mask Selection Network for Video Instance Segmentation Code
#17Mask2Former (ResNet-101)
54.2
AP75· 2021-12-20
Mask2Former for Video Instance Segmentation Code
#18IDOL (ResNet-50)
52.9
AP75· 2022-07-21
In Defense of Online Models for Video Instance Segmentation Code
#19SeqFormer (ResNet-50)
51.8
AP75· Extra Data· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#20SeqFormer (ResNet-50)
50.5
AP75· 2021-12-15
SeqFormer: Sequential Transformer for Video Instance Segmentation Code
#21Mask2Former (ResNet-50)
50
AP75· 2021-12-20
Mask2Former for Video Instance Segmentation Code
#22InstanceFormer(ResNet-50)
49.6
AP75· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#23DeVIS (ResNet-50)
48.6
AP75· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#24IFC (ResNet-50)SOTA
46.8
AP75· 2021-06-07
Video Instance Segmentation using Inter-Frame Communication Transformers Code
#25VisTR(ResNet-101)SOTA
45
AP75· 2020-11-30
End-to-End Video Instance Segmentation with Transformers Code
#26CrossVIS (ResNet-101)
39.7
AP75· 2021-04-13
Crossover Learning for Fast Online Video Instance Segmentation Code
#27PCAN(ResNet-50)
39.4
AP75· 2021-06-22
Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation Code
#28ObjProp (ResNet-50)
39.2
AP75· 2021-11-15
Object Propagation via Inter-Frame Attentions for Temporally Stable Video Instance Segmentation Code
#29STC (ResNet-50)
38.6
AP75· 2022-02-08
STC: Spatio-Temporal Contrastive Learning for Video Instance Segmentation
#30CompFeat(ResNet-50)
38.6
AP75· 2020-12-07
CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation Code
#31CSipMask
38.1
AP75· 2021-02-02
Occluded Video Instance Segmentation: A Benchmark Code
#32STMask(R101-DCN-FPN)
38
AP75· 2021-04-06
Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation Code
#33STEm-Seg (ResNet-101)SOTA
37.9
AP75· 2020-03-18
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos Code
#34STEm-Seg (ResNet-50)
37.9
AP75· 2020-03-18
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos Code
#35VisTR(ResNet-50)
36.9
AP75· 2020-11-30
End-to-End Video Instance Segmentation with Transformers Code
#36SipMask (ResNet-50, ms-train, single-scale test)
35.8
AP75· 2020-07-29
SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation Code
#37CMaskTrack R-CNN
34.9
AP75· 2021-02-02
Occluded Video Instance Segmentation: A Benchmark Code
#38SipMask (ResNet-50, single-scale test)
33.3
AP75· 2020-07-29
SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation Code
#39OSMNSOTA
33.1
AP75· 2018-02-04
Efficient Video Object Segmentation via Network Modulation Code
#40TraDeS
32.8
AP75· 2021-03-16
Track to Detect and Segment: An Online Multi-Object Tracker Code
#41MaskTrack R-CNN (ResNet-50, single-scale training and test)
32.6
AP75· 2019-05-12
Video Instance Segmentation Code