Referring Expression Segmentation on A2D Sentences

Metric: Precision@0.9 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Precision@0.9▼	Extra Data	Paper	Date↕	Code
1	SgMg (Video-Swin-B)	0.259	Yes	Spectrum-guided Multi-granularity Referring Vide...	2023-07-25	Code
2	SOC (Video-Swin-B)	0.252	Yes	SOC: Semantic-Assisted Object Cluster for Referr...	2023-05-26	Code
3	ReferFormer (Video-Swin-B)	0.212	Yes	Language as Queries for Referring Video Object S...	2022-01-03	Code
4	SOC (Video-Swin-T)	0.195	No	SOC: Semantic-Assisted Object Cluster for Referr...	2023-05-26	Code
5	ClawCraneNet	0.171	No	ClawCraneNet: Leveraging Object-level Relation f...	2021-03-19	-
6	MTTR (w=10)	0.169	No	End-to-End Referring Video Object Segmentation w...	2021-11-29	Code
7	MTTR (w=8)	0.164	No	End-to-End Referring Video Object Segmentation w...	2021-11-29	Code
8	VLIDE	0.151	No	Deeply Interleaved Two-Stream Encoder for Referr...	2022-03-30	-
9	MANET	0.132	No	Multi-Attention Network for Compressed Video Ref...	2022-07-26	Code
10	mmmmtbvs	0.13	No	Modeling Motion with Multi-Modal Features for Te...	2022-04-06	Code
11	HINet	0.12	No	-	-	-
12	Locater	0.101	No	Local-Global Context Aware Transformer for Langu...	2022-03-18	Code
13	CMPC-V (I3D)	0.098	No	Cross-Modal Progressive Comprehension for Referr...	2021-05-15	Code
14	RefVOS	0.093	No	-	-	-
15	Hui et al.	0.091	No	Collaborative Spatial-Temporal Modeling for Lang...	2021-05-14	-
16	PRPE	0.083	No	-	-	-
17	CMPC-V (R2D)	0.068	No	Cross-Modal Progressive Comprehension for Referr...	2021-05-15	Code
18	RefVOS	0.064	No	RefVOS: A Closer Look at Referring Expressions f...	2020-10-01	Code
19	CMSA+CFSA	0.052	No	Referring Segmentation in Images and Videos with...	2021-02-09	-
20	CMDy	0.045	No	-	-	-
21	VT-Capsule	0.036	No	-	-	-
22	AAMN	0.029	No	Actor and Action Modular Network for Text-based ...	2020-11-02	-
23	ACGA	0.02	No	-	-	Code
24	Gavriluyk el al. (Optical flow)	0.004	No	Actor and Action Video Segmentation from a Sente...	2018-03-20	Code
25	Gavriluyk el al.	0.002	No	Actor and Action Video Segmentation from a Sente...	2018-03-20	Code
26	Li et al.	0.001	No	-	-	-
27	Hu et al.	0	No	-	-	Code

#1SgMg (Video-Swin-B)SOTA
0.259
Precision@0.9· Extra Data· 2023-07-25
Spectrum-guided Multi-granularity Referring Video Object Segmentation Code
#2SOC (Video-Swin-B)SOTA
0.252
Precision@0.9· Extra Data· 2023-05-26
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation Code
#3ReferFormer (Video-Swin-B)SOTA
0.212
Precision@0.9· Extra Data· 2022-01-03
Language as Queries for Referring Video Object Segmentation Code
#4SOC (Video-Swin-T)
0.195
Precision@0.9· 2023-05-26
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation Code
#5ClawCraneNetSOTA
0.171
Precision@0.9· 2021-03-19
ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation
#6MTTR (w=10)
0.169
Precision@0.9· 2021-11-29
End-to-End Referring Video Object Segmentation with Multimodal Transformers Code
#7MTTR (w=8)
0.164
Precision@0.9· 2021-11-29
End-to-End Referring Video Object Segmentation with Multimodal Transformers Code
#8VLIDE
0.151
Precision@0.9· 2022-03-30
Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation
#9MANET
0.132
Precision@0.9· 2022-07-26
Multi-Attention Network for Compressed Video Referring Object Segmentation Code
#10mmmmtbvs
0.13
Precision@0.9· 2022-04-06
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation Code
#11HINet
0.12
Precision@0.9
No paper
#12Locater
0.101
Precision@0.9· 2022-03-18
Local-Global Context Aware Transformer for Language-Guided Video Segmentation Code
#13CMPC-V (I3D)
0.098
Precision@0.9· 2021-05-15
Cross-Modal Progressive Comprehension for Referring Segmentation Code
#14RefVOS
0.093
Precision@0.9
No paper
#15Hui et al.
0.091
Precision@0.9· 2021-05-14
Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation
#16PRPE
0.083
Precision@0.9
No paper
#17CMPC-V (R2D)
0.068
Precision@0.9· 2021-05-15
Cross-Modal Progressive Comprehension for Referring Segmentation Code
#18RefVOSSOTA
0.064
Precision@0.9· 2020-10-01
RefVOS: A Closer Look at Referring Expressions for Video Object Segmentation Code
#19CMSA+CFSA
0.052
Precision@0.9· 2021-02-09
Referring Segmentation in Images and Videos with Cross-Modal Self-Attention Network
#20CMDy
0.045
Precision@0.9
No paper
#21VT-Capsule
0.036
Precision@0.9
No paper
#22AAMN
0.029
Precision@0.9· 2020-11-02
Actor and Action Modular Network for Text-based Video Segmentation
#23ACGA
0.02
Precision@0.9
No paperCode
#24Gavriluyk el al. (Optical flow)SOTA
0.004
Precision@0.9· 2018-03-20
Actor and Action Video Segmentation from a Sentence Code
#25Gavriluyk el al.
0.002
Precision@0.9· 2018-03-20
Actor and Action Video Segmentation from a Sentence Code
#26Li et al.
0.001
Precision@0.9
No paper
#27Hu et al.
0
Precision@0.9
No paperCode