Video Instance Segmentation on OVIS validation

Metric: mask AP (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	mask AP▼	Extra Data	Paper	Date↕	Code
1	DVIS-DAQ(VIT-L, Offline)	57.1	Yes	DVIS-DAQ: Improving Video Segmentation via Dynam...	2024-03-29	Code
2	CAVIS(VIT-L, Offline)	57.1	Yes	Context-Aware Video Instance Segmentation	2024-07-03	Code
3	DVIS++(VIT-L,Offline)	53.4	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
4	GLEE-Pro	50.4	Yes	General Object Foundation Model for Images and V...	2023-12-14	Code
5	DVIS(Swin-L, Offline)	49.9	No	DVIS: Decoupled Video Instance Segmentation Fram...	2023-06-06	Code
6	DVIS++(VIT-L, Online)	49.6	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
7	UNINEXT (ViT-H, Online)	49	Yes	Universal Instance Perception as Object Discover...	2023-03-12	Code
8	DVIS(Swin-L, Online)	47.1	No	DVIS: Decoupled Video Instance Segmentation Fram...	2023-06-06	Code
9	CTVIS (Swin-L)	46.9	Yes	CTVIS: Consistent Training for Online Video Inst...	2023-07-24	Code
10	RefineVIS (Swin-L, offline)	46	Yes	RefineVIS: Video Instance Segmentation with Temp...	2023-06-07	-
11	GRAtt-VIS (Swin-L)	45.7	Yes	GRAtt-VIS: Gated Residual Attention for Auto Rec...	2023-05-26	Code
12	GenVIS (Swin-L)	45.4	Yes	A Generalized Framework for Video Instance Segme...	2022-11-16	Code
13	NOVIS (Swin-L)	43.5	Yes	NOVIS: A Case for End-to-End Near-Online Video I...	2023-08-29	-
14	TarViS (Swin-L)	43.2	Yes	TarViS: A Unified Approach for Target-based Vide...	2023-01-06	Code
15	MDQE(SwinL)	42.6	No	MDQE: Mining Discriminative Query Embeddings to ...	2023-03-25	Code
16	IDOL (Swin-L)	42.6	No	In Defense of Online Models for Video Instance S...	2022-07-21	Code
17	ROVIS (Swin-L)	42.6	No	Robust Online Video Instance Segmentation with T...	2022-11-16	Code
18	UniVS(Swin-L)	41.7	Yes	UniVS: Unified and Universal Video Segmentation ...	2024-02-28	Code
19	DVIS++(R50, Offline)	41.2	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
20	BoxVIS(Swin-L & Box-sup)	40.6	No	BoxVIS: Video Instance Segmentation with Box Ann...	2023-03-26	Code
21	MinVIS (Swin-L)	39.4	No	MinVIS: A Minimal Video Instance Segmentation Fr...	2022-08-03	Code
22	DVIS++(R50, Online)	37.2	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
23	GRAtt-VIS (ResNet-50)	36.2	Yes	GRAtt-VIS: Gated Residual Attention for Auto Rec...	2023-05-26	Code
24	CTVIS (ResNet-50)	35.5	Yes	CTVIS: Consistent Training for Online Video Inst...	2023-07-24	Code
25	DeVIS (Swin-L)	35.5	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
26	UNINEXT (ResNet-50, Online)	34	Yes	Universal Instance Perception as Object Discover...	2023-03-12	Code
27	TarViS (Swin-T)	34	Yes	TarViS: A Unified Approach for Target-based Vide...	2023-01-06	Code
28	NOVIS (ResNet-50)	32.7	Yes	NOVIS: A Case for End-to-End Near-Online Video I...	2023-08-29	-
29	TarViS (ResNet-50)	31.1	Yes	TarViS: A Unified Approach for Target-based Vide...	2023-01-06	Code
30	IDOL (ResNet-50)	30.2	No	In Defense of Online Models for Video Instance S...	2022-07-21	Code
31	Tube-Link(ResNet-50)	29.5	No	Tube-Link: A Flexible Cross Tube Framework for U...	2023-03-22	Code
32	VITA (Swin-L)	27.7	Yes	VITA: Video Instance Segmentation via Object Tok...	2022-06-09	Code
33	DeVIS (ResNet-50)	23.7	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
34	InstanceFormer (Swin-L)	22.8	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
35	InstanceFormer(ResNet-50)	20	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
36	CrossVIS (ResNet-50, calibration)	18.1	No	Crossover Learning for Fast Online Video Instanc...	2021-04-13	Code
37	TeViT (ResNet-50)	17.4	No	Temporally Efficient Vision Transformer for Vide...	2022-04-18	Code
38	STMask(R101-DCN-FPN)	17.3	No	Spatial Feature Calibration and Temporal Fusion ...	2021-04-06	Code
39	Mask2Former-VIS	16.6	No	Mask2Former for Video Instance Segmentation	2021-12-20	Code
40	STC (ResNet-50)	15.5	No	STC: Spatio-Temporal Contrastive Learning for Vi...	2022-02-08	-
41	CMaskTrack R-CNN (ResNet-50)	15.4	No	Occluded Video Instance Segmentation: A Benchmark	2021-02-02	Code
42	D2Conv3D (ResNet-50)	15.2	No	-	-	Code
43	CrossVIS (ResNet-50)	14.9	No	Crossover Learning for Fast Online Video Instanc...	2021-04-13	Code
44	CSipMask (ResNet-50)	14.3	No	Occluded Video Instance Segmentation: A Benchmark	2021-02-02	Code

#1DVIS-DAQ(VIT-L, Offline)SOTA
57.1
mask AP· Extra Data· 2024-03-29
DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries Code
#2CAVIS(VIT-L, Offline)
57.1
mask AP· Extra Data· 2024-07-03
Context-Aware Video Instance Segmentation Code
#3DVIS++(VIT-L,Offline)SOTA
53.4
mask AP· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#4GLEE-ProSOTA
50.4
mask AP· Extra Data· 2023-12-14
General Object Foundation Model for Images and Videos at Scale Code
#5DVIS(Swin-L, Offline)SOTA
49.9
mask AP· 2023-06-06
DVIS: Decoupled Video Instance Segmentation Framework Code
#6DVIS++(VIT-L, Online)
49.6
mask AP· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#7UNINEXT (ViT-H, Online)SOTA
49
mask AP· Extra Data· 2023-03-12
Universal Instance Perception as Object Discovery and Retrieval Code
#8DVIS(Swin-L, Online)
47.1
mask AP· 2023-06-06
DVIS: Decoupled Video Instance Segmentation Framework Code
#9CTVIS (Swin-L)
46.9
mask AP· Extra Data· 2023-07-24
CTVIS: Consistent Training for Online Video Instance Segmentation Code
#10RefineVIS (Swin-L, offline)
46
mask AP· Extra Data· 2023-06-07
RefineVIS: Video Instance Segmentation with Temporal Attention Refinement
#11GRAtt-VIS (Swin-L)
45.7
mask AP· Extra Data· 2023-05-26
GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation Code
#12GenVIS (Swin-L)SOTA
45.4
mask AP· Extra Data· 2022-11-16
A Generalized Framework for Video Instance Segmentation Code
#13NOVIS (Swin-L)
43.5
mask AP· Extra Data· 2023-08-29
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation
#14TarViS (Swin-L)
43.2
mask AP· Extra Data· 2023-01-06
TarViS: A Unified Approach for Target-based Video Segmentation Code
#15MDQE(SwinL)
42.6
mask AP· 2023-03-25
MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos Code
#16IDOL (Swin-L)SOTA
42.6
mask AP· 2022-07-21
In Defense of Online Models for Video Instance Segmentation Code
#17ROVIS (Swin-L)
42.6
mask AP· 2022-11-16
Robust Online Video Instance Segmentation with Track Queries Code
#18UniVS(Swin-L)
41.7
mask AP· Extra Data· 2024-02-28
UniVS: Unified and Universal Video Segmentation with Prompts as Queries Code
#19DVIS++(R50, Offline)
41.2
mask AP· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#20BoxVIS(Swin-L & Box-sup)
40.6
mask AP· 2023-03-26
BoxVIS: Video Instance Segmentation with Box Annotations Code
#21MinVIS (Swin-L)
39.4
mask AP· 2022-08-03
MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training Code
#22DVIS++(R50, Online)
37.2
mask AP· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#23GRAtt-VIS (ResNet-50)
36.2
mask AP· Extra Data· 2023-05-26
GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation Code
#24CTVIS (ResNet-50)
35.5
mask AP· Extra Data· 2023-07-24
CTVIS: Consistent Training for Online Video Instance Segmentation Code
#25DeVIS (Swin-L)
35.5
mask AP· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#26UNINEXT (ResNet-50, Online)
34
mask AP· Extra Data· 2023-03-12
Universal Instance Perception as Object Discovery and Retrieval Code
#27TarViS (Swin-T)
34
mask AP· Extra Data· 2023-01-06
TarViS: A Unified Approach for Target-based Video Segmentation Code
#28NOVIS (ResNet-50)
32.7
mask AP· Extra Data· 2023-08-29
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation
#29TarViS (ResNet-50)
31.1
mask AP· Extra Data· 2023-01-06
TarViS: A Unified Approach for Target-based Video Segmentation Code
#30IDOL (ResNet-50)
30.2
mask AP· 2022-07-21
In Defense of Online Models for Video Instance Segmentation Code
#31Tube-Link(ResNet-50)
29.5
mask AP· 2023-03-22
Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation Code
#32VITA (Swin-L)SOTA
27.7
mask AP· Extra Data· 2022-06-09
VITA: Video Instance Segmentation via Object Token Association Code
#33DeVIS (ResNet-50)
23.7
mask AP· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#34InstanceFormer (Swin-L)
22.8
mask AP· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#35InstanceFormer(ResNet-50)
20
mask AP· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#36CrossVIS (ResNet-50, calibration)SOTA
18.1
mask AP· 2021-04-13
Crossover Learning for Fast Online Video Instance Segmentation Code
#37TeViT (ResNet-50)
17.4
mask AP· 2022-04-18
Temporally Efficient Vision Transformer for Video Instance Segmentation Code
#38STMask(R101-DCN-FPN)SOTA
17.3
mask AP· 2021-04-06
Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation Code
#39Mask2Former-VIS
16.6
mask AP· 2021-12-20
Mask2Former for Video Instance Segmentation Code
#40STC (ResNet-50)
15.5
mask AP· 2022-02-08
STC: Spatio-Temporal Contrastive Learning for Video Instance Segmentation
#41CMaskTrack R-CNN (ResNet-50)SOTA
15.4
mask AP· 2021-02-02
Occluded Video Instance Segmentation: A Benchmark Code
#42D2Conv3D (ResNet-50)
15.2
mask AP
No paperCode
#43CrossVIS (ResNet-50)
14.9
mask AP· 2021-04-13
Crossover Learning for Fast Online Video Instance Segmentation Code
#44CSipMask (ResNet-50)
14.3
mask AP· 2021-02-02
Occluded Video Instance Segmentation: A Benchmark Code