Video Instance Segmentation on OVIS validation

Metric: AR10 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	AR10▼	Extra Data	Paper	Date↕	Code
1	CAVIS(VIT-L, Offline)	61.8	Yes	Context-Aware Video Instance Segmentation	2024-07-03	Code
2	DVIS(Swin-L, Offline)	55.3	No	DVIS: Decoupled Video Instance Segmentation Fram...	2023-06-06	Code
3	DVIS++(VIT-L, Online)	54.6	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
4	DVIS(Swin-L, Online)	52.5	No	DVIS: Decoupled Video Instance Segmentation Fram...	2023-06-06	Code
5	RefineVIS (Swin-L, offline)	51.2	Yes	RefineVIS: Video Instance Segmentation with Temp...	2023-06-07	-
6	TarViS (Swin-L)	50.4	Yes	TarViS: A Unified Approach for Target-based Vide...	2023-01-06	Code
7	IDOL (Swin-L)	49.6	No	In Defense of Online Models for Video Instance S...	2022-07-21	Code
8	GRAtt-VIS (Swin-L)	49.4	Yes	GRAtt-VIS: Gated Residual Attention for Auto Rec...	2023-05-26	Code
9	ROVIS (Swin-L)	49.1	No	Robust Online Video Instance Segmentation with T...	2022-11-16	Code
10	GenVIS (Swin-L)	49	Yes	A Generalized Framework for Video Instance Segme...	2022-11-16	Code
11	DVIS++(R50, Offline)	47.3	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
12	NOVIS (Swin-L)	46.9	Yes	NOVIS: A Case for End-to-End Near-Online Video I...	2023-08-29	-
13	MDQE(SwinL)	46.5	No	MDQE: Mining Discriminative Query Embeddings to ...	2023-03-25	Code
14	MinVIS (Swin-L)	43.3	No	MinVIS: A Minimal Video Instance Segmentation Fr...	2022-08-03	Code
15	DVIS++(R50, Online)	42.9	Yes	DVIS++: Improved Decoupled Framework for Univers...	2023-12-20	Code
16	TarViS (Swin-T)	40.9	Yes	TarViS: A Unified Approach for Target-based Vide...	2023-01-06	Code
17	GRAtt-VIS (ResNet-50)	40.1	Yes	GRAtt-VIS: Gated Residual Attention for Auto Rec...	2023-05-26	Code
18	TarViS (ResNet-50)	39.9	Yes	TarViS: A Unified Approach for Target-based Vide...	2023-01-06	Code
19	DeVIS (Swin-L)	39.8	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
20	IDOL (ResNet-50)	37.5	No	In Defense of Online Models for Video Instance S...	2022-07-21	Code
21	NOVIS (ResNet-50)	37.1	Yes	NOVIS: A Case for End-to-End Near-Online Video I...	2023-08-29	-
22	Tube-Link(ResNet-50)	34.5	No	Tube-Link: A Flexible Cross Tube Framework for U...	2023-03-22	Code
23	VITA (Swin-L)	33	Yes	VITA: Video Instance Segmentation via Object Tok...	2022-06-09	Code
24	InstanceFormer (Swin-L)	29.3	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
25	DeVIS (ResNet-50)	28.9	No	DeVIS: Making Deformable Transformers Work for V...	2022-07-22	Code
26	InstanceFormer(ResNet-50)	27.1	Yes	InstanceFormer: An Online Video Instance Segment...	2022-08-22	Code
27	Mask2Former-VIS	24.7	No	Mask2Former for Video Instance Segmentation	2021-12-20	Code
28	STMask(R101-DCN-FPN)	23.1	No	Spatial Feature Calibration and Temporal Fusion ...	2021-04-06	Code

#1CAVIS(VIT-L, Offline)SOTA
61.8
AR10· Extra Data· 2024-07-03
Context-Aware Video Instance Segmentation Code
#2DVIS(Swin-L, Offline)SOTA
55.3
AR10· 2023-06-06
DVIS: Decoupled Video Instance Segmentation Framework Code
#3DVIS++(VIT-L, Online)
54.6
AR10· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#4DVIS(Swin-L, Online)
52.5
AR10· 2023-06-06
DVIS: Decoupled Video Instance Segmentation Framework Code
#5RefineVIS (Swin-L, offline)
51.2
AR10· Extra Data· 2023-06-07
RefineVIS: Video Instance Segmentation with Temporal Attention Refinement
#6TarViS (Swin-L)SOTA
50.4
AR10· Extra Data· 2023-01-06
TarViS: A Unified Approach for Target-based Video Segmentation Code
#7IDOL (Swin-L)SOTA
49.6
AR10· 2022-07-21
In Defense of Online Models for Video Instance Segmentation Code
#8GRAtt-VIS (Swin-L)
49.4
AR10· Extra Data· 2023-05-26
GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation Code
#9ROVIS (Swin-L)
49.1
AR10· 2022-11-16
Robust Online Video Instance Segmentation with Track Queries Code
#10GenVIS (Swin-L)
49
AR10· Extra Data· 2022-11-16
A Generalized Framework for Video Instance Segmentation Code
#11DVIS++(R50, Offline)
47.3
AR10· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#12NOVIS (Swin-L)
46.9
AR10· Extra Data· 2023-08-29
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation
#13MDQE(SwinL)
46.5
AR10· 2023-03-25
MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos Code
#14MinVIS (Swin-L)
43.3
AR10· 2022-08-03
MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training Code
#15DVIS++(R50, Online)
42.9
AR10· Extra Data· 2023-12-20
DVIS++: Improved Decoupled Framework for Universal Video Segmentation Code
#16TarViS (Swin-T)
40.9
AR10· Extra Data· 2023-01-06
TarViS: A Unified Approach for Target-based Video Segmentation Code
#17GRAtt-VIS (ResNet-50)
40.1
AR10· Extra Data· 2023-05-26
GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation Code
#18TarViS (ResNet-50)
39.9
AR10· Extra Data· 2023-01-06
TarViS: A Unified Approach for Target-based Video Segmentation Code
#19DeVIS (Swin-L)
39.8
AR10· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#20IDOL (ResNet-50)
37.5
AR10· 2022-07-21
In Defense of Online Models for Video Instance Segmentation Code
#21NOVIS (ResNet-50)
37.1
AR10· Extra Data· 2023-08-29
NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation
#22Tube-Link(ResNet-50)
34.5
AR10· 2023-03-22
Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation Code
#23VITA (Swin-L)SOTA
33
AR10· Extra Data· 2022-06-09
VITA: Video Instance Segmentation via Object Token Association Code
#24InstanceFormer (Swin-L)
29.3
AR10· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#25DeVIS (ResNet-50)
28.9
AR10· 2022-07-22
DeVIS: Making Deformable Transformers Work for Video Instance Segmentation Code
#26InstanceFormer(ResNet-50)
27.1
AR10· Extra Data· 2022-08-22
InstanceFormer: An Online Video Instance Segmentation Framework Code
#27Mask2Former-VISSOTA
24.7
AR10· 2021-12-20
Mask2Former for Video Instance Segmentation Code
#28STMask(R101-DCN-FPN)SOTA
23.1
AR10· 2021-04-06
Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation Code