Single Frame Semantic Segmentation Using Multi-Modal Spherical Images

Suresh Guttikonda, Jason Rambach

2023-08-18Semantic Segmentation

Abstract

In recent years, the research community has shown a lot of interest to panoramic images that offer a 360-degree directional perspective. Multiple data modalities can be fed, and complimentary characteristics can be utilized for more robust and rich scene interpretation based on semantic segmentation, to fully realize the potential. Existing research, however, mostly concentrated on pinhole RGB-X semantic segmentation. In this study, we propose a transformer-based cross-modal fusion architecture to bridge the gap between multi-modal fusion and omnidirectional scene perception. We employ distortion-aware modules to address extreme object deformations and panorama distortions that result from equirectangular representation. Additionally, we conduct cross-modal interactions for feature rectification and information exchange before merging the features in order to communicate long-range contexts for bi-modal and tri-modal feature streams. In thorough tests using combinations of four different modality types in three indoor panoramic-view datasets, our technique achieved state-of-the-art mIoU performance: 60.60% on Stanford2D3DS (RGB-HHA), 71.97% Structured3D (RGB-D-N), and 35.92% Matterport3D (RGB-D). We plan to release all codes and trained models soon.

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	Structured3D	Test mIoU	71.97	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Structured3D	Validation mIoU	75.86	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Structured3D	Test mIoU	71	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Structured3D	Validation mIoU	74.38	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Structured3D	Test mIoU	70.17	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Structured3D	Validation mIoU	73.78	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Structured3D	Test mIoU	68.34	SFSS-MMSI (RGB Only)
Semantic Segmentation	Structured3D	Validation mIoU	71.94	SFSS-MMSI (RGB Only)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	70.68	SFSS-MMSI (RGB+HHA)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	69.03	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	68.79	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	68.57	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	63.96	SFSS-MMSI (RGB Only)
Semantic Segmentation	Matterport3D	Test mIoU	35.92	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Matterport3D	Validation mIoU	39.19	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Matterport3D	Test mIoU	35.77	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Matterport3D	Validation mIoU	38.91	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Matterport3D	Test mIoU	35.52	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Matterport3D	Validation mIoU	39.26	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Matterport3D	Test mIoU	31.3	SFSS-MMSI (RGB Only)
Semantic Segmentation	Matterport3D	Validation mIoU	35.15	SFSS-MMSI (RGB Only)
10-shot image generation	Structured3D	Test mIoU	71.97	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Structured3D	Validation mIoU	75.86	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Structured3D	Test mIoU	71	SFSS-MMSI (RGB+Normal)
10-shot image generation	Structured3D	Validation mIoU	74.38	SFSS-MMSI (RGB+Normal)
10-shot image generation	Structured3D	Test mIoU	70.17	SFSS-MMSI (RGB+Depth)
10-shot image generation	Structured3D	Validation mIoU	73.78	SFSS-MMSI (RGB+Depth)
10-shot image generation	Structured3D	Test mIoU	68.34	SFSS-MMSI (RGB Only)
10-shot image generation	Structured3D	Validation mIoU	71.94	SFSS-MMSI (RGB Only)
10-shot image generation	Stanford2D3D Panoramic	mAcc	70.68	SFSS-MMSI (RGB+HHA)
10-shot image generation	Stanford2D3D Panoramic	mAcc	69.03	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Stanford2D3D Panoramic	mAcc	68.79	SFSS-MMSI (RGB+Normal)
10-shot image generation	Stanford2D3D Panoramic	mAcc	68.57	SFSS-MMSI (RGB+Depth)
10-shot image generation	Stanford2D3D Panoramic	mAcc	63.96	SFSS-MMSI (RGB Only)
10-shot image generation	Matterport3D	Test mIoU	35.92	SFSS-MMSI (RGB+Depth)
10-shot image generation	Matterport3D	Validation mIoU	39.19	SFSS-MMSI (RGB+Depth)
10-shot image generation	Matterport3D	Test mIoU	35.77	SFSS-MMSI (RGB+Normal)
10-shot image generation	Matterport3D	Validation mIoU	38.91	SFSS-MMSI (RGB+Normal)
10-shot image generation	Matterport3D	Test mIoU	35.52	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Matterport3D	Validation mIoU	39.26	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Matterport3D	Test mIoU	31.3	SFSS-MMSI (RGB Only)
10-shot image generation	Matterport3D	Validation mIoU	35.15	SFSS-MMSI (RGB Only)

Abstract

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	Structured3D	Test mIoU	71.97	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Structured3D	Validation mIoU	75.86	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Structured3D	Test mIoU	71	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Structured3D	Validation mIoU	74.38	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Structured3D	Test mIoU	70.17	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Structured3D	Validation mIoU	73.78	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Structured3D	Test mIoU	68.34	SFSS-MMSI (RGB Only)
Semantic Segmentation	Structured3D	Validation mIoU	71.94	SFSS-MMSI (RGB Only)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	70.68	SFSS-MMSI (RGB+HHA)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	69.03	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	68.79	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	68.57	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Stanford2D3D Panoramic	mAcc	63.96	SFSS-MMSI (RGB Only)
Semantic Segmentation	Matterport3D	Test mIoU	35.92	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Matterport3D	Validation mIoU	39.19	SFSS-MMSI (RGB+Depth)
Semantic Segmentation	Matterport3D	Test mIoU	35.77	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Matterport3D	Validation mIoU	38.91	SFSS-MMSI (RGB+Normal)
Semantic Segmentation	Matterport3D	Test mIoU	35.52	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Matterport3D	Validation mIoU	39.26	SFSS-MMSI (RGB+Depth+Normal)
Semantic Segmentation	Matterport3D	Test mIoU	31.3	SFSS-MMSI (RGB Only)
Semantic Segmentation	Matterport3D	Validation mIoU	35.15	SFSS-MMSI (RGB Only)
10-shot image generation	Structured3D	Test mIoU	71.97	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Structured3D	Validation mIoU	75.86	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Structured3D	Test mIoU	71	SFSS-MMSI (RGB+Normal)
10-shot image generation	Structured3D	Validation mIoU	74.38	SFSS-MMSI (RGB+Normal)
10-shot image generation	Structured3D	Test mIoU	70.17	SFSS-MMSI (RGB+Depth)
10-shot image generation	Structured3D	Validation mIoU	73.78	SFSS-MMSI (RGB+Depth)
10-shot image generation	Structured3D	Test mIoU	68.34	SFSS-MMSI (RGB Only)
10-shot image generation	Structured3D	Validation mIoU	71.94	SFSS-MMSI (RGB Only)
10-shot image generation	Stanford2D3D Panoramic	mAcc	70.68	SFSS-MMSI (RGB+HHA)
10-shot image generation	Stanford2D3D Panoramic	mAcc	69.03	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Stanford2D3D Panoramic	mAcc	68.79	SFSS-MMSI (RGB+Normal)
10-shot image generation	Stanford2D3D Panoramic	mAcc	68.57	SFSS-MMSI (RGB+Depth)
10-shot image generation	Stanford2D3D Panoramic	mAcc	63.96	SFSS-MMSI (RGB Only)
10-shot image generation	Matterport3D	Test mIoU	35.92	SFSS-MMSI (RGB+Depth)
10-shot image generation	Matterport3D	Validation mIoU	39.19	SFSS-MMSI (RGB+Depth)
10-shot image generation	Matterport3D	Test mIoU	35.77	SFSS-MMSI (RGB+Normal)
10-shot image generation	Matterport3D	Validation mIoU	38.91	SFSS-MMSI (RGB+Normal)
10-shot image generation	Matterport3D	Test mIoU	35.52	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Matterport3D	Validation mIoU	39.26	SFSS-MMSI (RGB+Depth+Normal)
10-shot image generation	Matterport3D	Test mIoU	31.3	SFSS-MMSI (RGB Only)
10-shot image generation	Matterport3D	Validation mIoU	35.15	SFSS-MMSI (RGB Only)

Single Frame Semantic Segmentation Using Multi-Modal Spherical Images

Abstract

Results

Related Papers

Single Frame Semantic Segmentation Using Multi-Modal Spherical Images

Abstract

Results

Related Papers