Instance Segmentation on gRefCOCO

Metric: cIoU (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	cIoU▼	Extra Data	Paper	Date↕	Code
1	DeRIS-L	72	No	DeRIS: Decoupling Perception and Cognition for E...	2025-07-02	Code
2	GSVA-Llama2-13B	66.38	Yes	GSVA: Generalized Segmentation via Multimodal La...	2023-12-15	Code
3	MABP	65.69	No	Bring Adaptive Binding Prototypes to Generalized...	2024-05-24	Code
4	HDC	65.42	No	CoHD: A Counting-Aware Hierarchical Decoding Fra...	2024-05-24	Code
5	GSVA-Vicuna-13B-v1.1	64.05	Yes	GSVA: Generalized Segmentation via Multimodal La...	2023-12-15	Code
6	GSVA-Vicuna-7B-v1.1	63.29	Yes	GSVA: Generalized Segmentation via Multimodal La...	2023-12-15	Code
7	ReLA	62.42	No	GRES: Generalized Referring Expression Segmentat...	2023-06-01	Code
8	LAVT	57.64	No	LAVT: Language-Aware Vision Transformer for Refe...	2021-12-04	Code
9	CRIS	55.34	No	CRIS: CLIP-Driven Referring Image Segmentation	2021-11-30	Code
10	VLT	52.51	No	Vision-Language Transformer and Query Generation...	2021-08-12	Code
11	LTS	52.3	No	Locate then Segment: A Strong Pipeline for Refer...	2021-03-30	-
12	MattNet	47.51	No	MAttNet: Modular Attention Network for Referring...	2018-01-24	Code

#1DeRIS-LSOTA
72
cIoU· 2025-07-02
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy Code
#2GSVA-Llama2-13BSOTA
66.38
cIoU· Extra Data· 2023-12-15
GSVA: Generalized Segmentation via Multimodal Large Language Models Code
#3MABP
65.69
cIoU· 2024-05-24
Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation Code
#4HDC
65.42
cIoU· 2024-05-24
CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation Code
#5GSVA-Vicuna-13B-v1.1
64.05
cIoU· Extra Data· 2023-12-15
GSVA: Generalized Segmentation via Multimodal Large Language Models Code
#6GSVA-Vicuna-7B-v1.1
63.29
cIoU· Extra Data· 2023-12-15
GSVA: Generalized Segmentation via Multimodal Large Language Models Code
#7ReLASOTA
62.42
cIoU· 2023-06-01
GRES: Generalized Referring Expression Segmentation Code
#8LAVTSOTA
57.64
cIoU· 2021-12-04
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Code
#9CRISSOTA
55.34
cIoU· 2021-11-30
CRIS: CLIP-Driven Referring Image Segmentation Code
#10VLTSOTA
52.51
cIoU· 2021-08-12
Vision-Language Transformer and Query Generation for Referring Segmentation Code
#11LTSSOTA
52.3
cIoU· 2021-03-30
Locate then Segment: A Strong Pipeline for Referring Image Segmentation
#12MattNetSOTA
47.51
cIoU· 2018-01-24
MAttNet: Modular Attention Network for Referring Expression Comprehension Code