PhraseCut: Language-based Image Segmentation in the Wild

Chenyun Wu, Zhe Lin, Scott Cohen, Trung Bui, Subhransu Maji

2020-08-03CVPR 2020 6Attribute Referring Expression Segmentation Semantic Segmentation Image Segmentation

Abstract

We consider the problem of segmenting image regions given a natural language phrase, and study it on a novel dataset of 77,262 images and 345,486 phrase-region pairs. Our dataset is collected on top of the Visual Genome dataset and uses the existing annotations to generate a challenging set of referring phrases for which the corresponding regions are manually annotated. Phrases in our dataset correspond to multiple regions and describe a large number of object and stuff categories as well as their attributes such as color, shape, parts, and relationships with other entities in the image. Our experiments show that the scale and diversity of concepts in our dataset poses significant challenges to the existing state-of-the-art. We systematically handle the long-tail nature of these concepts and present a modular approach to combine category, attribute, and relationship cues that outperforms existing approaches.

Results

Task	Dataset	Metric	Value	Model
Instance Segmentation	PhraseCut	Mean IoU	41.3	HULANet
Instance Segmentation	PhraseCut	Pr@0.5	42.9	HULANet
Instance Segmentation	PhraseCut	Pr@0.7	27.8	HULANet
Instance Segmentation	PhraseCut	Pr@0.9	5.9	HULANet
Instance Segmentation	PhraseCut	Mean IoU	21.1	RMI
Instance Segmentation	PhraseCut	Pr@0.5	22	RMI
Instance Segmentation	PhraseCut	Pr@0.7	11.6	RMI
Instance Segmentation	PhraseCut	Pr@0.9	1.5	RMI
Instance Segmentation	PhraseCut	Mean IoU	20.2	MattNet
Instance Segmentation	PhraseCut	Pr@0.5	19.7	MattNet
Instance Segmentation	PhraseCut	Pr@0.7	13.5	MattNet
Instance Segmentation	PhraseCut	Pr@0.9	3	MattNet
Referring Expression Segmentation	PhraseCut	Mean IoU	41.3	HULANet
Referring Expression Segmentation	PhraseCut	Pr@0.5	42.9	HULANet
Referring Expression Segmentation	PhraseCut	Pr@0.7	27.8	HULANet
Referring Expression Segmentation	PhraseCut	Pr@0.9	5.9	HULANet
Referring Expression Segmentation	PhraseCut	Mean IoU	21.1	RMI
Referring Expression Segmentation	PhraseCut	Pr@0.5	22	RMI
Referring Expression Segmentation	PhraseCut	Pr@0.7	11.6	RMI
Referring Expression Segmentation	PhraseCut	Pr@0.9	1.5	RMI
Referring Expression Segmentation	PhraseCut	Mean IoU	20.2	MattNet
Referring Expression Segmentation	PhraseCut	Pr@0.5	19.7	MattNet
Referring Expression Segmentation	PhraseCut	Pr@0.7	13.5	MattNet
Referring Expression Segmentation	PhraseCut	Pr@0.9	3	MattNet

PhraseCut: Language-based Image Segmentation in the Wild

Abstract

Results

Related Papers

PhraseCut: Language-based Image Segmentation in the Wild

Abstract

Results

Related Papers