Video Instance Segmentation on YouTube-VIS 2021

Metric: mask AP (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	mask AP▼	Extra Data	Paper	Date↕	Code
1	CAVIS(VIT-L, Offline)	65.3	Yes	Context-Aware Video Instance Segmentation	2024-07-03	Code
2	DVIS-DAQ(VIT-L, Offline)	64.5	Yes	DVIS-DAQ: Improving Video Segmentation via Dynam...	2024-03-29	Code
3	DVIS++(VIT-L, Offline)	63.9	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
4	DVIS++(VIT-L, Online)	62.3	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
5	RefineVIS (Swin-L, online)	61.4	Yes	RefineVIS: Video Instance Segmentation with Temp...	2023-06-07	-
6	GRAtt-VIS (Swin-L)	60.3	Yes	GRAtt-VIS: Gated Residual Attention for Auto Rec...	2023-05-26	Code
7	TarViS (Swin-L)	60.2	Yes	TarViS: A Unified Approach for Target-based Vide...	2023-01-06	Code
8	DVIS(Swin-L)	60.1	Yes	DVIS: Decoupled Video Instance Segmentation Fram...	2023-06-06	Code
9	GenVIS (Swin-L)	60.1	Yes	A Generalized Framework for Video Instance Segme...	2022-11-16	Code
10	NOVIS (Swin-L)	59.8	Yes	NOVIS: A Case for End-to-End Near-Online Video I...	2023-08-29	-
11	Tube-Link(Swin-L)	58.4	No	Tube-Link: A Flexible Cross Tube Framework for U...	2023-03-22	Code
12	UniVS(Swin-L)	57.9	Yes	UniVS: Unified and Universal Video Segmentation ...	2024-02-28	Code
13	VITA (Swin-L)	57.5	Yes	VITA: Video Instance Segmentation via Object Tok...	2022-06-09	Code
14	IDOL (Swin-L)	56.1	No	In Defense of Online Models for Video Instance S...	2022-07-21	Code
15	MDQE(Swin-L)	55.5	No	MDQE: Mining Discriminative Query Embeddings to ...	2023-03-25	Code
16	MinVIS (Swin-L)	55.3	No	MinVIS: A Minimal Video Instance Segmentation Fr...	2022-08-03	Code
17	DeVIS (Swin-L)	54.4	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
18	BoxVIS(Swin-L & Box-sup)	53.9	No	BoxVIS: Video Instance Segmentation with Box Ann...	2023-03-26	Code
19	InstanceFormer (Swin-L)	51	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
20	TarViS (Swin-T)	50.9	Yes	TarViS: A Unified Approach for Target-based Vide...	2023-01-06	Code
21	GRAtt-VIS (ResNet-50)	48.9	Yes	GRAtt-VIS: Gated Residual Attention for Auto Rec...	2023-05-26	Code
22	TarViS (ResNet-50)	48.3	Yes	TarViS: A Unified Approach for Target-based Vide...	2023-01-06	Code
23	NOVIS (ResNet-50)	47.2	Yes	NOVIS: A Case for End-to-End Near-Online Video I...	2023-08-29	-
24	DeVIS (ResNet-50)	43.1	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
25	InstanceFormer (ResNet-50)	40.8	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
26	STMask(R101-DCN-FPN)	34.6	No	Spatial Feature Calibration and Temporal Fusion ...	2021-04-06	Code

#1CAVIS(VIT-L, Offline)SOTA
65.3
mask AP· Extra Data· 2024-07-03
Context-Aware Video Instance Segmentation Code
#2DVIS-DAQ(VIT-L, Offline)SOTA
64.5
mask AP· Extra Data· 2024-03-29
DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries Code
#3DVIS++(VIT-L, Offline)SOTA
63.9
mask AP· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#4DVIS++(VIT-L, Online)
62.3
mask AP· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#5RefineVIS (Swin-L, online)SOTA
61.4
mask AP· Extra Data· 2023-06-07
RefineVIS: Video Instance Segmentation with Temporal Attention Refinement
#6GRAtt-VIS (Swin-L)SOTA
60.3
mask AP· Extra Data· 2023-05-26
GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation Code
#7TarViS (Swin-L)SOTA
60.2
mask AP· Extra Data· 2023-01-06
TarViS: A Unified Approach for Target-based Video Segmentation Code
#8DVIS(Swin-L)
60.1
mask AP· Extra Data· 2023-06-06
DVIS: Decoupled Video Instance Segmentation Framework Code
#9GenVIS (Swin-L)SOTA
60.1
mask AP· Extra Data· 2022-11-16
A Generalized Framework for Video Instance Segmentation Code
#10NOVIS (Swin-L)
59.8
mask AP· Extra Data· 2023-08-29
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation
#11Tube-Link(Swin-L)
58.4
mask AP· 2023-03-22
Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation Code
#12UniVS(Swin-L)
57.9
mask AP· Extra Data· 2024-02-28
UniVS: Unified and Universal Video Segmentation with Prompts as Queries Code
#13VITA (Swin-L)SOTA
57.5
mask AP· Extra Data· 2022-06-09
VITA: Video Instance Segmentation via Object Token Association Code
#14IDOL (Swin-L)
56.1
mask AP· 2022-07-21
In Defense of Online Models for Video Instance Segmentation Code
#15MDQE(Swin-L)
55.5
mask AP· 2023-03-25
MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos Code
#16MinVIS (Swin-L)
55.3
mask AP· 2022-08-03
MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training Code
#17DeVIS (Swin-L)
54.4
mask AP· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#18BoxVIS(Swin-L & Box-sup)
53.9
mask AP· 2023-03-26
BoxVIS: Video Instance Segmentation with Box Annotations Code
#19InstanceFormer (Swin-L)
51
mask AP· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#20TarViS (Swin-T)
50.9
mask AP· Extra Data· 2023-01-06
TarViS: A Unified Approach for Target-based Video Segmentation Code
#21GRAtt-VIS (ResNet-50)
48.9
mask AP· Extra Data· 2023-05-26
GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation Code
#22TarViS (ResNet-50)
48.3
mask AP· Extra Data· 2023-01-06
TarViS: A Unified Approach for Target-based Video Segmentation Code
#23NOVIS (ResNet-50)
47.2
mask AP· Extra Data· 2023-08-29
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation
#24DeVIS (ResNet-50)
43.1
mask AP· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#25InstanceFormer (ResNet-50)
40.8
mask AP· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#26STMask(R101-DCN-FPN)SOTA
34.6
mask AP· 2021-04-06
Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation Code