Instance Segmentation on RefCOCO+ testA

Metric: Overall IoU (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Overall IoU▼	Extra Data	Paper	Date↕	Code
1	HyperSeg	83.5	Yes	HyperSeg: Towards Universal Visual Segmentation ...	2024-11-26	Code
2	MLCD-Seg-7B	82.9	Yes	Multi-label Cluster Discrimination for Visual Re...	2024-07-24	Code
3	DeRIS-L	82.34	No	DeRIS: Decoupling Perception and Cognition for E...	2025-07-02	Code
4	EVF-SAM	80	Yes	EVF-SAM: Early Vision-Language Fusion for Text-P...	2024-06-28	Code
5	DETRIS	78.6	No	Densely Connected Parameter-Efficient Tuning for...	2025-01-15	Code
6	UniLSeg-100	78.29	Yes	Universal Segmentation at Arbitrary Granularity ...	2023-12-04	Code
7	C3VG	77.96	No	Multi-task Visual Grounding with Coarse-to-Fine ...	2025-01-12	Code
8	UniLSeg-20	77.02	Yes	Universal Segmentation at Arbitrary Granularity ...	2023-12-04	Code
9	UNINEXT-H	76.42	Yes	Universal Instance Perception as Object Discover...	2023-03-12	Code
10	MaskRIS (Swin-B, combined DB)	75.15	No	MaskRIS: Semantic Distortion-aware Data Augmenta...	2024-11-28	Code
11	GROUNDHOG	75	Yes	GROUNDHOG: Grounding Large Language Models to Ho...	2024-02-26	-
12	PolyFormer-L	74.56	Yes	PolyFormer: Referring Image Segmentation as Sequ...	2023-02-14	Code
13	SafaRi-B	74.53	No	SafaRi:Adaptive Sequence Transformer for Weakly ...	2024-07-02	-
14	MaskRIS (Swin-B)	74.46	No	MaskRIS: Semantic Distortion-aware Data Augmenta...	2024-11-28	Code
15	PolyFormer-B	72.89	Yes	PolyFormer: Referring Image Segmentation as Sequ...	2023-02-14	Code
16	MagNet	71.32	No	Mask Grounding for Referring Image Segmentation	2023-12-19	Code
17	ReLA	71.02	No	GRES: Generalized Referring Expression Segmentat...	2023-06-01	Code
18	VLT	68.43	No	VLT: Vision-Language Transformer and Query Gener...	2022-10-28	Code
19	LAVT	68.38	No	LAVT: Language-Aware Vision Transformer for Refe...	2021-12-04	Code
20	CRIS	68.08	No	CRIS: CLIP-Driven Referring Image Segmentation	2021-11-30	Code
21	MaIL	65.92	No	MaIL: A Unified Mask-Image-Language Trimodal Net...	2021-11-21	-
22	VLT	59.2	No	Vision-Language Transformer and Query Generation...	2021-08-12	Code
23	SHNet	58.46	No	Comprehensive Multi-Modal Interactions for Refer...	2021-04-21	Code
24	CPMC	53.44	No	Referring Image Segmentation via Cross-Modal Pro...	2020-10-01	Code
25	BRINet	52.87	No	-	-	-
26	MattNet	52.39	No	MAttNet: Modular Attention Network for Referring...	2018-01-24	Code
27	STEP (5-fold)	52.33	No	-	-	-
28	RefVOS with BERT + MLM Loss	49.73	No	RefVOS: A Closer Look at Referring Expressions f...	2020-10-01	Code
29	CMSA	47.6	No	Cross-Modal Self-Attention Network for Referring...	2019-04-09	Code

#1HyperSegSOTA
83.5
Overall IoU· Extra Data· 2024-11-26
HyperSeg: Towards Universal Visual Segmentation with Large Language Model Code
#2MLCD-Seg-7BSOTA
82.9
Overall IoU· Extra Data· 2024-07-24
Multi-label Cluster Discrimination for Visual Representation Learning Code
#3DeRIS-L
82.34
Overall IoU· 2025-07-02
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy Code
#4EVF-SAMSOTA
80
Overall IoU· Extra Data· 2024-06-28
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Code
#5DETRIS
78.6
Overall IoU· 2025-01-15
Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation Code
#6UniLSeg-100SOTA
78.29
Overall IoU· Extra Data· 2023-12-04
Universal Segmentation at Arbitrary Granularity with Language Instruction Code
#7C3VG
77.96
Overall IoU· 2025-01-12
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints Code
#8UniLSeg-20
77.02
Overall IoU· Extra Data· 2023-12-04
Universal Segmentation at Arbitrary Granularity with Language Instruction Code
#9UNINEXT-HSOTA
76.42
Overall IoU· Extra Data· 2023-03-12
Universal Instance Perception as Object Discovery and Retrieval Code
#10MaskRIS (Swin-B, combined DB)
75.15
Overall IoU· 2024-11-28
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation Code
#11GROUNDHOG
75
Overall IoU· Extra Data· 2024-02-26
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation
#12PolyFormer-LSOTA
74.56
Overall IoU· Extra Data· 2023-02-14
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation Code
#13SafaRi-B
74.53
Overall IoU· 2024-07-02
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation
#14MaskRIS (Swin-B)
74.46
Overall IoU· 2024-11-28
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation Code
#15PolyFormer-B
72.89
Overall IoU· Extra Data· 2023-02-14
PolyFormer: Referring Image Segmentation as Sequential Polygon Generation Code
#16MagNet
71.32
Overall IoU· 2023-12-19
Mask Grounding for Referring Image Segmentation Code
#17ReLA
71.02
Overall IoU· 2023-06-01
GRES: Generalized Referring Expression Segmentation Code
#18VLTSOTA
68.43
Overall IoU· 2022-10-28
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation Code
#19LAVTSOTA
68.38
Overall IoU· 2021-12-04
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Code
#20CRISSOTA
68.08
Overall IoU· 2021-11-30
CRIS: CLIP-Driven Referring Image Segmentation Code
#21MaILSOTA
65.92
Overall IoU· 2021-11-21
MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation
#22VLTSOTA
59.2
Overall IoU· 2021-08-12
Vision-Language Transformer and Query Generation for Referring Segmentation Code
#23SHNetSOTA
58.46
Overall IoU· 2021-04-21
Comprehensive Multi-Modal Interactions for Referring Image Segmentation Code
#24CPMCSOTA
53.44
Overall IoU· 2020-10-01
Referring Image Segmentation via Cross-Modal Progressive Comprehension Code
#25BRINet
52.87
Overall IoU
No paper
#26MattNetSOTA
52.39
Overall IoU· 2018-01-24
MAttNet: Modular Attention Network for Referring Expression Comprehension Code
#27STEP (5-fold)
52.33
Overall IoU
No paper
#28RefVOS with BERT + MLM Loss
49.73
Overall IoU· 2020-10-01
RefVOS: A Closer Look at Referring Expressions for Video Object Segmentation Code
#29CMSA
47.6
Overall IoU· 2019-04-09
Cross-Modal Self-Attention Network for Referring Image Segmentation Code