ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

Chen Liang, Yu Wu, Yawei Luo, Yi Yang

2021-03-19Referring Expression Segmentation Video Segmentation Video Semantic Segmentation Video Understanding

Abstract

Text-based video segmentation is a challenging task that segments out the natural language referred objects in videos. It essentially requires semantic comprehension and fine-grained video understanding. Existing methods introduce language representation into segmentation models in a bottom-up manner, which merely conducts vision-language interaction within local receptive fields of ConvNets. We argue that such interaction is not fulfilled since the model can barely construct region-level relationships given partial observations, which is contrary to the description logic of natural language/referring expressions. In fact, people usually describe a target object using relations with other objects, which may not be easily understood without seeing the whole video. To address the issue, we introduce a novel top-down approach by imitating how we human segment an object with the language guidance. We first figure out all candidate objects in videos and then choose the refereed one by parsing relations among those high-level objects. Three kinds of object-level relations are investigated for precise relationship understanding, i.e., positional relation, text-guided semantic relation, and temporal relation. Extensive experiments on A2D Sentences and J-HMDB Sentences show our method outperforms state-of-the-art methods by a large margin. Qualitative results also show our results are more explainable.

Results

Task	Dataset	Metric	Value	Model
Instance Segmentation	A2D Sentences	IoU mean	0.655	ClawCraneNet
Instance Segmentation	A2D Sentences	IoU overall	0.644	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.5	0.704	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.6	0.677	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.7	0.617	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.8	0.489	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.9	0.171	ClawCraneNet
Instance Segmentation	J-HMDB	IoU mean	0.655	ClawCraneNet
Instance Segmentation	J-HMDB	IoU overall	0.644	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.5	0.88	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.6	0.796	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.7	0.566	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.8	0.147	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.9	0.002	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	IoU mean	0.655	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	IoU overall	0.644	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.5	0.704	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.6	0.677	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.7	0.617	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.8	0.489	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.9	0.171	ClawCraneNet
Referring Expression Segmentation	J-HMDB	IoU mean	0.655	ClawCraneNet
Referring Expression Segmentation	J-HMDB	IoU overall	0.644	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.5	0.88	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.6	0.796	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.7	0.566	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.8	0.147	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.9	0.002	ClawCraneNet

Abstract

Results

Task	Dataset	Metric	Value	Model
Instance Segmentation	A2D Sentences	IoU mean	0.655	ClawCraneNet
Instance Segmentation	A2D Sentences	IoU overall	0.644	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.5	0.704	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.6	0.677	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.7	0.617	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.8	0.489	ClawCraneNet
Instance Segmentation	A2D Sentences	Precision@0.9	0.171	ClawCraneNet
Instance Segmentation	J-HMDB	IoU mean	0.655	ClawCraneNet
Instance Segmentation	J-HMDB	IoU overall	0.644	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.5	0.88	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.6	0.796	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.7	0.566	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.8	0.147	ClawCraneNet
Instance Segmentation	J-HMDB	Precision@0.9	0.002	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	IoU mean	0.655	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	IoU overall	0.644	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.5	0.704	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.6	0.677	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.7	0.617	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.8	0.489	ClawCraneNet
Referring Expression Segmentation	A2D Sentences	Precision@0.9	0.171	ClawCraneNet
Referring Expression Segmentation	J-HMDB	IoU mean	0.655	ClawCraneNet
Referring Expression Segmentation	J-HMDB	IoU overall	0.644	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.5	0.88	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.6	0.796	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.7	0.566	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.8	0.147	ClawCraneNet
Referring Expression Segmentation	J-HMDB	Precision@0.9	0.002	ClawCraneNet

ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

Abstract

Results

Related Papers

ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

Abstract

Results

Related Papers