Language as Queries for Referring Video Object Segmentation

Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo

2022-01-03CVPR 2022 1Referring Video Object Segmentation Referring Expression Segmentation Semantic Segmentation Video Object Segmentation Object Tracking Video Semantic Segmentation Video Instance Segmentation

Paper PDF Code(official)

Abstract

Referring video object segmentation (R-VOS) is an emerging cross-modal task that aims to segment the target object referred by a language expression in all video frames. In this work, we propose a simple and unified framework built upon Transformer, termed ReferFormer. It views the language as queries and directly attends to the most relevant regions in the video frames. Concretely, we introduce a small set of object queries conditioned on the language as the input to the Transformer. In this manner, all the queries are obligated to find the referred objects only. They are eventually transformed into dynamic kernels which capture the crucial object-level information, and play the role of convolution filters to generate the segmentation masks from feature maps. The object tracking is achieved naturally by linking the corresponding queries across frames. This mechanism greatly simplifies the pipeline and the end-to-end framework is significantly different from the previous methods. Extensive experiments on Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences and JHMDB-Sentences show the effectiveness of ReferFormer. On Ref-Youtube-VOS, Refer-Former achieves 55.6J&F with a ResNet-50 backbone without bells and whistles, which exceeds the previous state-of-the-art performance by 8.4 points. In addition, with the strong Swin-Large backbone, ReferFormer achieves the best J&F of 64.2 among all existing methods. Moreover, we show the impressive results of 55.0 mAP and 43.7 mAP on A2D-Sentences andJHMDB-Sentences respectively, which significantly outperforms the previous methods by a large margin. Code is publicly available at https://github.com/wjn922/ReferFormer.

Results

Task	Dataset	Metric	Value	Model
Video	ReVOS	F	29.9	ReferFormer (Video-Swin-B)
Video	ReVOS	J	26.2	ReferFormer (Video-Swin-B)
Video	ReVOS	J&F	28.1	ReferFormer (Video-Swin-B)
Video	ReVOS	R	8.8	ReferFormer (Video-Swin-B)
Video	MeViS	F	32.2	ReferFormer
Video	MeViS	J	29.8	ReferFormer
Video	MeViS	J&F	31	ReferFormer
Video	Refer-YouTube-VOS	F	64.6	ReferFormer (Large)
Video	Refer-YouTube-VOS	J	61.3	ReferFormer (Large)
Video	Refer-YouTube-VOS	J&F	62.9	ReferFormer (Large)
Video	Ref-DAVIS17	F	64.1	ReferFormer
Video	Ref-DAVIS17	J	58.1	ReferFormer
Video	Ref-DAVIS17	J&F	61.1	ReferFormer
Instance Segmentation	Refer-YouTube-VOS (2021 public validation)	F	58.4	ReferFormer (ResNet-101)
Instance Segmentation	Refer-YouTube-VOS (2021 public validation)	J	56.1	ReferFormer (ResNet-101)
Instance Segmentation	Refer-YouTube-VOS (2021 public validation)	J&F	57.3	ReferFormer (ResNet-101)
Instance Segmentation	Refer-YouTube-VOS (2021 public validation)	F	56.6	ReferFormer (ResNet-50)
Instance Segmentation	Refer-YouTube-VOS (2021 public validation)	J	54.8	ReferFormer (ResNet-50)
Instance Segmentation	Refer-YouTube-VOS (2021 public validation)	J&F	55.6	ReferFormer (ResNet-50)
Instance Segmentation	A2D Sentences	AP	0.55	ReferFormer (Video-Swin-B)
Instance Segmentation	A2D Sentences	IoU mean	0.703	ReferFormer (Video-Swin-B)
Instance Segmentation	A2D Sentences	IoU overall	0.786	ReferFormer (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.5	0.831	ReferFormer (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.6	0.804	ReferFormer (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.7	0.741	ReferFormer (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.8	0.579	ReferFormer (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.9	0.212	ReferFormer (Video-Swin-B)
Instance Segmentation	DAVIS 2017 (val)	J&F 1st frame	61.1	ReferFormer
Video Object Segmentation	ReVOS	F	29.9	ReferFormer (Video-Swin-B)
Video Object Segmentation	ReVOS	J	26.2	ReferFormer (Video-Swin-B)
Video Object Segmentation	ReVOS	J&F	28.1	ReferFormer (Video-Swin-B)
Video Object Segmentation	ReVOS	R	8.8	ReferFormer (Video-Swin-B)
Video Object Segmentation	MeViS	F	32.2	ReferFormer
Video Object Segmentation	MeViS	J	29.8	ReferFormer
Video Object Segmentation	MeViS	J&F	31	ReferFormer
Video Object Segmentation	Refer-YouTube-VOS	F	64.6	ReferFormer (Large)
Video Object Segmentation	Refer-YouTube-VOS	J	61.3	ReferFormer (Large)
Video Object Segmentation	Refer-YouTube-VOS	J&F	62.9	ReferFormer (Large)
Video Object Segmentation	Ref-DAVIS17	F	64.1	ReferFormer
Video Object Segmentation	Ref-DAVIS17	J	58.1	ReferFormer
Video Object Segmentation	Ref-DAVIS17	J&F	61.1	ReferFormer
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	F	58.4	ReferFormer (ResNet-101)
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	J	56.1	ReferFormer (ResNet-101)
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	J&F	57.3	ReferFormer (ResNet-101)
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	F	56.6	ReferFormer (ResNet-50)
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	J	54.8	ReferFormer (ResNet-50)
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	J&F	55.6	ReferFormer (ResNet-50)
Referring Expression Segmentation	A2D Sentences	AP	0.55	ReferFormer (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	IoU mean	0.703	ReferFormer (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	IoU overall	0.786	ReferFormer (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.5	0.831	ReferFormer (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.6	0.804	ReferFormer (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.7	0.741	ReferFormer (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.8	0.579	ReferFormer (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.9	0.212	ReferFormer (Video-Swin-B)
Referring Expression Segmentation	DAVIS 2017 (val)	J&F 1st frame	61.1	ReferFormer

Language as Queries for Referring Video Object Segmentation

Abstract

Results

Related Papers

Language as Queries for Referring Video Object Segmentation

Abstract

Results

Related Papers