Referring Expression Segmentation on gRefCOCO

Metric: gIoU (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	gIoU▼	Extra Data	Paper	Date↕	Code
1	DeRIS-L	77.67	No	DeRIS: Decoupling Perception and Cognition for E...	2025-07-02	Code
2	GSVA-Llama2-13B	70.04	Yes	GSVA: Generalized Segmentation via Multimodal La...	2023-12-15	Code
3	MABP	68.79	No	Bring Adaptive Binding Prototypes to Generalized...	2024-05-24	Code
4	HDC	68.28	No	CoHD: A Counting-Aware Hierarchical Decoding Fra...	2024-05-24	Code
5	GSVA-Vicuna-13B-v1.1	68.01	Yes	GSVA: Generalized Segmentation via Multimodal La...	2023-12-15	Code
6	GROUNDHOG	66.7	Yes	GROUNDHOG: Grounding Large Language Models to Ho...	2024-02-26	-
7	GSVA-Vicuna-7B-v1.1	66.47	Yes	GSVA: Generalized Segmentation via Multimodal La...	2023-12-15	Code
8	ReLA	63.6	No	GRES: Generalized Referring Expression Segmentat...	2023-06-01	Code
9	LAVT	58.4	No	LAVT: Language-Aware Vision Transformer for Refe...	2021-12-04	Code
10	CRIS	56.27	No	CRIS: CLIP-Driven Referring Image Segmentation	2021-11-30	Code
11	LTS	52.7	No	Locate then Segment: A Strong Pipeline for Refer...	2021-03-30	-
12	VLT	52	No	Vision-Language Transformer and Query Generation...	2021-08-12	Code
13	MattNet	48.24	No	MAttNet: Modular Attention Network for Referring...	2018-01-24	Code

#1DeRIS-LSOTA
77.67
gIoU· 2025-07-02
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy Code
#2GSVA-Llama2-13BSOTA
70.04
gIoU· Extra Data· 2023-12-15
GSVA: Generalized Segmentation via Multimodal Large Language Models Code
#3MABP
68.79
gIoU· 2024-05-24
Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation Code
#4HDC
68.28
gIoU· 2024-05-24
CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation Code
#5GSVA-Vicuna-13B-v1.1
68.01
gIoU· Extra Data· 2023-12-15
GSVA: Generalized Segmentation via Multimodal Large Language Models Code
#6GROUNDHOG
66.7
gIoU· Extra Data· 2024-02-26
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation
#7GSVA-Vicuna-7B-v1.1
66.47
gIoU· Extra Data· 2023-12-15
GSVA: Generalized Segmentation via Multimodal Large Language Models Code
#8ReLASOTA
63.6
gIoU· 2023-06-01
GRES: Generalized Referring Expression Segmentation Code
#9LAVTSOTA
58.4
gIoU· 2021-12-04
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Code
#10CRISSOTA
56.27
gIoU· 2021-11-30
CRIS: CLIP-Driven Referring Image Segmentation Code
#11LTSSOTA
52.7
gIoU· 2021-03-30
Locate then Segment: A Strong Pipeline for Referring Image Segmentation
#12VLT
52
gIoU· 2021-08-12
Vision-Language Transformer and Query Generation for Referring Segmentation Code
#13MattNetSOTA
48.24
gIoU· 2018-01-24
MAttNet: Modular Attention Network for Referring Expression Comprehension Code