DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation

Bowen Yin, Xuying Zhang, Zhongyu Li, Li Liu, Ming-Ming Cheng, Qibin Hou

2023-09-183D geometry Representation Learning Segmentation Semantic Segmentation Salient Object Detection RGB-D Salient Object Detection object-detection Object Detection

Paper PDF Code

Abstract

We present DFormer, a novel RGB-D pretraining framework to learn transferable representations for RGB-D segmentation tasks. DFormer has two new key innovations: 1) Unlike previous works that encode RGB-D information with RGB pretrained backbone, we pretrain the backbone using image-depth pairs from ImageNet-1K, and hence the DFormer is endowed with the capacity to encode RGB-D representations; 2) DFormer comprises a sequence of RGB-D blocks, which are tailored for encoding both RGB and depth information through a novel building block design. DFormer avoids the mismatched encoding of the 3D geometry relationships in depth maps by RGB pretrained backbones, which widely lies in existing methods but has not been resolved. We finetune the pretrained DFormer on two popular RGB-D tasks, i.e., RGB-D semantic segmentation and RGB-D salient object detection, with a lightweight decoder head. Experimental results show that our DFormer achieves new state-of-the-art performance on these two tasks with less than half of the computational cost of the current best methods on two RGB-D semantic segmentation datasets and five RGB-D salient object detection datasets. Our code is available at: https://github.com/VCIP-RGBD/DFormer.

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	SYN-UDTIRI	IoU	90.88	DFormer
Object Detection	NJU2K	Average MAE	0.023	DFormer-L
Object Detection	NJU2K	S-Measure	93.7	DFormer-L
Object Detection	NJU2K	max E-Measure	96.4	DFormer-L
Object Detection	NJU2K	max F-Measure	94.6	DFormer-L
Object Detection	STERE	Average MAE	0.03	DFormer-L
Object Detection	STERE	S-Measure	92.3	DFormer-L
Object Detection	STERE	max E-Measure	95.2	DFormer-L
Object Detection	STERE	max F-Measure	92.9	DFormer-L
Object Detection	SIP	Average MAE	0.032	DFormer-L
Object Detection	SIP	S-Measure	91.5	DFormer-L
Object Detection	SIP	max E-Measure	95	DFormer-L
Object Detection	SIP	max F-Measure	93.8	DFormer-L
Object Detection	NLPR	Average MAE	0.016	DFormer-L
Object Detection	NLPR	S-Measure	94.2	DFormer-L
Object Detection	NLPR	max E-Measure	97.1	DFormer-L
Object Detection	NLPR	max F-Measure	93.9	DFormer-L
Object Detection	DES	Average MAE	0.013	DFormer-L
Object Detection	DES	S-Measure	94.8	DFormer-L
Object Detection	DES	max E-Measure	98	DFormer-L
Object Detection	DES	max F-Measure	95.6	DFormer-L
3D	NJU2K	Average MAE	0.023	DFormer-L
3D	NJU2K	S-Measure	93.7	DFormer-L
3D	NJU2K	max E-Measure	96.4	DFormer-L
3D	NJU2K	max F-Measure	94.6	DFormer-L
3D	STERE	Average MAE	0.03	DFormer-L
3D	STERE	S-Measure	92.3	DFormer-L
3D	STERE	max E-Measure	95.2	DFormer-L
3D	STERE	max F-Measure	92.9	DFormer-L
3D	SIP	Average MAE	0.032	DFormer-L
3D	SIP	S-Measure	91.5	DFormer-L
3D	SIP	max E-Measure	95	DFormer-L
3D	SIP	max F-Measure	93.8	DFormer-L
3D	NLPR	Average MAE	0.016	DFormer-L
3D	NLPR	S-Measure	94.2	DFormer-L
3D	NLPR	max E-Measure	97.1	DFormer-L
3D	NLPR	max F-Measure	93.9	DFormer-L
3D	DES	Average MAE	0.013	DFormer-L
3D	DES	S-Measure	94.8	DFormer-L
3D	DES	max E-Measure	98	DFormer-L
3D	DES	max F-Measure	95.6	DFormer-L
2D Classification	NJU2K	Average MAE	0.023	DFormer-L
2D Classification	NJU2K	S-Measure	93.7	DFormer-L
2D Classification	NJU2K	max E-Measure	96.4	DFormer-L
2D Classification	NJU2K	max F-Measure	94.6	DFormer-L
2D Classification	STERE	Average MAE	0.03	DFormer-L
2D Classification	STERE	S-Measure	92.3	DFormer-L
2D Classification	STERE	max E-Measure	95.2	DFormer-L
2D Classification	STERE	max F-Measure	92.9	DFormer-L
2D Classification	SIP	Average MAE	0.032	DFormer-L
2D Classification	SIP	S-Measure	91.5	DFormer-L
2D Classification	SIP	max E-Measure	95	DFormer-L
2D Classification	SIP	max F-Measure	93.8	DFormer-L
2D Classification	NLPR	Average MAE	0.016	DFormer-L
2D Classification	NLPR	S-Measure	94.2	DFormer-L
2D Classification	NLPR	max E-Measure	97.1	DFormer-L
2D Classification	NLPR	max F-Measure	93.9	DFormer-L
2D Classification	DES	Average MAE	0.013	DFormer-L
2D Classification	DES	S-Measure	94.8	DFormer-L
2D Classification	DES	max E-Measure	98	DFormer-L
2D Classification	DES	max F-Measure	95.6	DFormer-L
2D Object Detection	NJU2K	Average MAE	0.023	DFormer-L
2D Object Detection	NJU2K	S-Measure	93.7	DFormer-L
2D Object Detection	NJU2K	max E-Measure	96.4	DFormer-L
2D Object Detection	NJU2K	max F-Measure	94.6	DFormer-L
2D Object Detection	STERE	Average MAE	0.03	DFormer-L
2D Object Detection	STERE	S-Measure	92.3	DFormer-L
2D Object Detection	STERE	max E-Measure	95.2	DFormer-L
2D Object Detection	STERE	max F-Measure	92.9	DFormer-L
2D Object Detection	SIP	Average MAE	0.032	DFormer-L
2D Object Detection	SIP	S-Measure	91.5	DFormer-L
2D Object Detection	SIP	max E-Measure	95	DFormer-L
2D Object Detection	SIP	max F-Measure	93.8	DFormer-L
2D Object Detection	NLPR	Average MAE	0.016	DFormer-L
2D Object Detection	NLPR	S-Measure	94.2	DFormer-L
2D Object Detection	NLPR	max E-Measure	97.1	DFormer-L
2D Object Detection	NLPR	max F-Measure	93.9	DFormer-L
2D Object Detection	DES	Average MAE	0.013	DFormer-L
2D Object Detection	DES	S-Measure	94.8	DFormer-L
2D Object Detection	DES	max E-Measure	98	DFormer-L
2D Object Detection	DES	max F-Measure	95.6	DFormer-L
10-shot image generation	SYN-UDTIRI	IoU	90.88	DFormer
16k	NJU2K	Average MAE	0.023	DFormer-L
16k	NJU2K	S-Measure	93.7	DFormer-L
16k	NJU2K	max E-Measure	96.4	DFormer-L
16k	NJU2K	max F-Measure	94.6	DFormer-L
16k	STERE	Average MAE	0.03	DFormer-L
16k	STERE	S-Measure	92.3	DFormer-L
16k	STERE	max E-Measure	95.2	DFormer-L
16k	STERE	max F-Measure	92.9	DFormer-L
16k	SIP	Average MAE	0.032	DFormer-L
16k	SIP	S-Measure	91.5	DFormer-L
16k	SIP	max E-Measure	95	DFormer-L
16k	SIP	max F-Measure	93.8	DFormer-L
16k	NLPR	Average MAE	0.016	DFormer-L
16k	NLPR	S-Measure	94.2	DFormer-L
16k	NLPR	max E-Measure	97.1	DFormer-L
16k	NLPR	max F-Measure	93.9	DFormer-L
16k	DES	Average MAE	0.013	DFormer-L
16k	DES	S-Measure	94.8	DFormer-L
16k	DES	max E-Measure	98	DFormer-L
16k	DES	max F-Measure	95.6	DFormer-L

Abstract

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	SYN-UDTIRI	IoU	90.88	DFormer
Object Detection	NJU2K	Average MAE	0.023	DFormer-L
Object Detection	NJU2K	S-Measure	93.7	DFormer-L
Object Detection	NJU2K	max E-Measure	96.4	DFormer-L
Object Detection	NJU2K	max F-Measure	94.6	DFormer-L
Object Detection	STERE	Average MAE	0.03	DFormer-L
Object Detection	STERE	S-Measure	92.3	DFormer-L
Object Detection	STERE	max E-Measure	95.2	DFormer-L
Object Detection	STERE	max F-Measure	92.9	DFormer-L
Object Detection	SIP	Average MAE	0.032	DFormer-L
Object Detection	SIP	S-Measure	91.5	DFormer-L
Object Detection	SIP	max E-Measure	95	DFormer-L
Object Detection	SIP	max F-Measure	93.8	DFormer-L
Object Detection	NLPR	Average MAE	0.016	DFormer-L
Object Detection	NLPR	S-Measure	94.2	DFormer-L
Object Detection	NLPR	max E-Measure	97.1	DFormer-L
Object Detection	NLPR	max F-Measure	93.9	DFormer-L
Object Detection	DES	Average MAE	0.013	DFormer-L
Object Detection	DES	S-Measure	94.8	DFormer-L
Object Detection	DES	max E-Measure	98	DFormer-L
Object Detection	DES	max F-Measure	95.6	DFormer-L
3D	NJU2K	Average MAE	0.023	DFormer-L
3D	NJU2K	S-Measure	93.7	DFormer-L
3D	NJU2K	max E-Measure	96.4	DFormer-L
3D	NJU2K	max F-Measure	94.6	DFormer-L
3D	STERE	Average MAE	0.03	DFormer-L
3D	STERE	S-Measure	92.3	DFormer-L
3D	STERE	max E-Measure	95.2	DFormer-L
3D	STERE	max F-Measure	92.9	DFormer-L
3D	SIP	Average MAE	0.032	DFormer-L
3D	SIP	S-Measure	91.5	DFormer-L
3D	SIP	max E-Measure	95	DFormer-L
3D	SIP	max F-Measure	93.8	DFormer-L
3D	NLPR	Average MAE	0.016	DFormer-L
3D	NLPR	S-Measure	94.2	DFormer-L
3D	NLPR	max E-Measure	97.1	DFormer-L
3D	NLPR	max F-Measure	93.9	DFormer-L
3D	DES	Average MAE	0.013	DFormer-L
3D	DES	S-Measure	94.8	DFormer-L
3D	DES	max E-Measure	98	DFormer-L
3D	DES	max F-Measure	95.6	DFormer-L
2D Classification	NJU2K	Average MAE	0.023	DFormer-L
2D Classification	NJU2K	S-Measure	93.7	DFormer-L
2D Classification	NJU2K	max E-Measure	96.4	DFormer-L
2D Classification	NJU2K	max F-Measure	94.6	DFormer-L
2D Classification	STERE	Average MAE	0.03	DFormer-L
2D Classification	STERE	S-Measure	92.3	DFormer-L
2D Classification	STERE	max E-Measure	95.2	DFormer-L
2D Classification	STERE	max F-Measure	92.9	DFormer-L
2D Classification	SIP	Average MAE	0.032	DFormer-L
2D Classification	SIP	S-Measure	91.5	DFormer-L
2D Classification	SIP	max E-Measure	95	DFormer-L
2D Classification	SIP	max F-Measure	93.8	DFormer-L
2D Classification	NLPR	Average MAE	0.016	DFormer-L
2D Classification	NLPR	S-Measure	94.2	DFormer-L
2D Classification	NLPR	max E-Measure	97.1	DFormer-L
2D Classification	NLPR	max F-Measure	93.9	DFormer-L
2D Classification	DES	Average MAE	0.013	DFormer-L
2D Classification	DES	S-Measure	94.8	DFormer-L
2D Classification	DES	max E-Measure	98	DFormer-L
2D Classification	DES	max F-Measure	95.6	DFormer-L
2D Object Detection	NJU2K	Average MAE	0.023	DFormer-L
2D Object Detection	NJU2K	S-Measure	93.7	DFormer-L
2D Object Detection	NJU2K	max E-Measure	96.4	DFormer-L
2D Object Detection	NJU2K	max F-Measure	94.6	DFormer-L
2D Object Detection	STERE	Average MAE	0.03	DFormer-L
2D Object Detection	STERE	S-Measure	92.3	DFormer-L
2D Object Detection	STERE	max E-Measure	95.2	DFormer-L
2D Object Detection	STERE	max F-Measure	92.9	DFormer-L
2D Object Detection	SIP	Average MAE	0.032	DFormer-L
2D Object Detection	SIP	S-Measure	91.5	DFormer-L
2D Object Detection	SIP	max E-Measure	95	DFormer-L
2D Object Detection	SIP	max F-Measure	93.8	DFormer-L
2D Object Detection	NLPR	Average MAE	0.016	DFormer-L
2D Object Detection	NLPR	S-Measure	94.2	DFormer-L
2D Object Detection	NLPR	max E-Measure	97.1	DFormer-L
2D Object Detection	NLPR	max F-Measure	93.9	DFormer-L
2D Object Detection	DES	Average MAE	0.013	DFormer-L
2D Object Detection	DES	S-Measure	94.8	DFormer-L
2D Object Detection	DES	max E-Measure	98	DFormer-L
2D Object Detection	DES	max F-Measure	95.6	DFormer-L
10-shot image generation	SYN-UDTIRI	IoU	90.88	DFormer
16k	NJU2K	Average MAE	0.023	DFormer-L
16k	NJU2K	S-Measure	93.7	DFormer-L
16k	NJU2K	max E-Measure	96.4	DFormer-L
16k	NJU2K	max F-Measure	94.6	DFormer-L
16k	STERE	Average MAE	0.03	DFormer-L
16k	STERE	S-Measure	92.3	DFormer-L
16k	STERE	max E-Measure	95.2	DFormer-L
16k	STERE	max F-Measure	92.9	DFormer-L
16k	SIP	Average MAE	0.032	DFormer-L
16k	SIP	S-Measure	91.5	DFormer-L
16k	SIP	max E-Measure	95	DFormer-L
16k	SIP	max F-Measure	93.8	DFormer-L
16k	NLPR	Average MAE	0.016	DFormer-L
16k	NLPR	S-Measure	94.2	DFormer-L
16k	NLPR	max E-Measure	97.1	DFormer-L
16k	NLPR	max F-Measure	93.9	DFormer-L
16k	DES	Average MAE	0.013	DFormer-L
16k	DES	S-Measure	94.8	DFormer-L
16k	DES	max E-Measure	98	DFormer-L
16k	DES	max F-Measure	95.6	DFormer-L

DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation

Abstract

Results

Related Papers

DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation

Abstract

Results

Related Papers