Spectrum-guided Multi-granularity Referring Video Object Segmentation

Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian

2023-07-25ICCV 2023 1Referring Video Object Segmentation Referring Expression Segmentation Segmentation Semantic Segmentation Video Object Segmentation Video Semantic Segmentation

Paper PDF Code(official)

Abstract

Current referring video object segmentation (R-VOS) techniques extract conditional kernels from encoded (low-resolution) vision-language features to segment the decoded high-resolution features. We discovered that this causes significant feature drift, which the segmentation kernels struggle to perceive during the forward computation. This negatively affects the ability of segmentation kernels. To address the drift problem, we propose a Spectrum-guided Multi-granularity (SgMg) approach, which performs direct segmentation on the encoded features and employs visual details to further optimize the masks. In addition, we propose Spectrum-guided Cross-modal Fusion (SCF) to perform intra-frame global interactions in the spectral domain for effective multimodal representation. Finally, we extend SgMg to perform multi-object R-VOS, a new paradigm that enables simultaneous segmentation of multiple referred objects in a video. This not only makes R-VOS faster, but also more practical. Extensive experiments show that SgMg achieves state-of-the-art performance on four video benchmark datasets, outperforming the nearest competitor by 2.8% points on Ref-YouTube-VOS. Our extended SgMg enables multi-object R-VOS, runs about 3 times faster while maintaining satisfactory performance. Code is available at https://github.com/bo-miao/SgMg.

Results

Task	Dataset	Metric	Value	Model
Video	Refer-YouTube-VOS	F	67.4	SgMg
Video	Refer-YouTube-VOS	J	63.9	SgMg
Video	Refer-YouTube-VOS	J&F	65.7	SgMg
Video	Ref-DAVIS17	F	66	SgMg
Video	Ref-DAVIS17	J	60.6	SgMg
Video	Ref-DAVIS17	J&F	63.3	SgMg
Instance Segmentation	Refer-YouTube-VOS (2021 public validation)	F	67.4	SgMg (Pre-training)
Instance Segmentation	Refer-YouTube-VOS (2021 public validation)	J	63.9	SgMg (Pre-training)
Instance Segmentation	Refer-YouTube-VOS (2021 public validation)	J&F	65.7	SgMg (Pre-training)
Instance Segmentation	A2D Sentences	AP	0.585	SgMg (Video-Swin-B)
Instance Segmentation	A2D Sentences	IoU mean	0.72	SgMg (Video-Swin-B)
Instance Segmentation	A2D Sentences	IoU overall	0.799	SgMg (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.5	0.843	SgMg (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.6	0.822	SgMg (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.7	0.767	SgMg (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.8	0.617	SgMg (Video-Swin-B)
Instance Segmentation	A2D Sentences	Precision@0.9	0.259	SgMg (Video-Swin-B)
Instance Segmentation	J-HMDB	AP	0.45	SgMg (Video-Swin-B)
Instance Segmentation	J-HMDB	IoU mean	0.725	SgMg (Video-Swin-B)
Instance Segmentation	J-HMDB	IoU overall	0.737	SgMg (Video-Swin-B)
Instance Segmentation	J-HMDB	Precision@0.5	0.972	SgMg (Video-Swin-B)
Instance Segmentation	J-HMDB	Precision@0.6	0.917	SgMg (Video-Swin-B)
Instance Segmentation	J-HMDB	Precision@0.7	0.714	SgMg (Video-Swin-B)
Instance Segmentation	J-HMDB	Precision@0.8	0.225	SgMg (Video-Swin-B)
Instance Segmentation	J-HMDB	Precision@0.9	0.003	SgMg (Video-Swin-B)
Instance Segmentation	DAVIS 2017 (val)	J&F 1st frame	63.3	SgMg
Video Object Segmentation	Refer-YouTube-VOS	F	67.4	SgMg
Video Object Segmentation	Refer-YouTube-VOS	J	63.9	SgMg
Video Object Segmentation	Refer-YouTube-VOS	J&F	65.7	SgMg
Video Object Segmentation	Ref-DAVIS17	F	66	SgMg
Video Object Segmentation	Ref-DAVIS17	J	60.6	SgMg
Video Object Segmentation	Ref-DAVIS17	J&F	63.3	SgMg
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	F	67.4	SgMg (Pre-training)
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	J	63.9	SgMg (Pre-training)
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	J&F	65.7	SgMg (Pre-training)
Referring Expression Segmentation	A2D Sentences	AP	0.585	SgMg (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	IoU mean	0.72	SgMg (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	IoU overall	0.799	SgMg (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.5	0.843	SgMg (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.6	0.822	SgMg (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.7	0.767	SgMg (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.8	0.617	SgMg (Video-Swin-B)
Referring Expression Segmentation	A2D Sentences	Precision@0.9	0.259	SgMg (Video-Swin-B)
Referring Expression Segmentation	J-HMDB	AP	0.45	SgMg (Video-Swin-B)
Referring Expression Segmentation	J-HMDB	IoU mean	0.725	SgMg (Video-Swin-B)
Referring Expression Segmentation	J-HMDB	IoU overall	0.737	SgMg (Video-Swin-B)
Referring Expression Segmentation	J-HMDB	Precision@0.5	0.972	SgMg (Video-Swin-B)
Referring Expression Segmentation	J-HMDB	Precision@0.6	0.917	SgMg (Video-Swin-B)
Referring Expression Segmentation	J-HMDB	Precision@0.7	0.714	SgMg (Video-Swin-B)
Referring Expression Segmentation	J-HMDB	Precision@0.8	0.225	SgMg (Video-Swin-B)
Referring Expression Segmentation	J-HMDB	Precision@0.9	0.003	SgMg (Video-Swin-B)
Referring Expression Segmentation	DAVIS 2017 (val)	J&F 1st frame	63.3	SgMg

Spectrum-guided Multi-granularity Referring Video Object Segmentation

Abstract

Results

Related Papers

Spectrum-guided Multi-granularity Referring Video Object Segmentation

Abstract

Results

Related Papers