StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

2024-08-02Thermal Image Segmentation Segmentation Semantic Segmentation

Abstract

Multimodal semantic segmentation shows significant potential for enhancing segmentation accuracy in complex scenes. However, current methods often incorporate specialized feature fusion modules tailored to specific modalities, thereby restricting input flexibility and increasing the number of training parameters. To address these challenges, we propose StitchFusion, a straightforward yet effective modal fusion framework that integrates large-scale pre-trained models directly as encoders and feature fusers. This approach facilitates comprehensive multi-modal and multi-scale feature fusion, accommodating any visual modal inputs. Specifically, Our framework achieves modal integration during encoding by sharing multi-modal visual information. To enhance information exchange across modalities, we introduce a multi-directional adapter module (MultiAdapter) to enable cross-modal information transfer during encoding. By leveraging MultiAdapter to propagate multi-scale information across pre-trained encoders during the encoding process, StitchFusion achieves multi-modal visual information integration during encoding. Extensive comparative experiments demonstrate that our model achieves state-of-the-art performance on four multi-modal segmentation datasets with minimal additional parameters. Furthermore, the experimental integration of MultiAdapter with existing Feature Fusion Modules (FFMs) highlights their complementary nature. Our code is available at StitchFusion_repo.

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	MCubeS	mIoU	53.92	StitchFusion (RGB-A-D-N)
Semantic Segmentation	MCubeS	mIoU	53.26	StitchFusion (RGB-A-D)
Semantic Segmentation	MCubeS	mIoU	53.21	StitchFusion (RGB-N)
Semantic Segmentation	MCubeS	mIoU	52.72	StitchFusion (RGB-D)
Semantic Segmentation	MCubeS	mIoU	52.68	StitchFusion (RGB-A)
Semantic Segmentation	FMB Dataset	mIoU	64.32	StitchFusion+FFMs (RGB-Infrared)
Semantic Segmentation	FMB Dataset	mIoU	63.3	StitchFusion (RGB-Infrared)
Semantic Segmentation	DeLiVER	mIoU	68.18	StitchFusion(RGB-D-E-LiDAR)
Semantic Segmentation	DeLiVER	mIoU	66.65	StitchFusion (RGB-D-LiDAR)
Semantic Segmentation	DeLiVER	mIoU	66.03	StitchFusion (RGB-D-Event)
Semantic Segmentation	DeLiVER	mIoU	65.75	StitchFusion (RGB-Depth)
Semantic Segmentation	DeLiVER	mIoU	58.03	StitchFusion (RGB-LiDAR)
Semantic Segmentation	DeLiVER	mIoU	57.44	StitchFusion (RGB-Event)
Semantic Segmentation	PST900	mIoU	85.35	StitchFusion (RGB-T)
Semantic Segmentation	MFN Dataset	mIOU	58.13	StitchFusion
Scene Segmentation	PST900	mIoU	85.35	StitchFusion (RGB-T)
Scene Segmentation	MFN Dataset	mIOU	58.13	StitchFusion
2D Object Detection	PST900	mIoU	85.35	StitchFusion (RGB-T)
2D Object Detection	MFN Dataset	mIOU	58.13	StitchFusion
10-shot image generation	MCubeS	mIoU	53.92	StitchFusion (RGB-A-D-N)
10-shot image generation	MCubeS	mIoU	53.26	StitchFusion (RGB-A-D)
10-shot image generation	MCubeS	mIoU	53.21	StitchFusion (RGB-N)
10-shot image generation	MCubeS	mIoU	52.72	StitchFusion (RGB-D)
10-shot image generation	MCubeS	mIoU	52.68	StitchFusion (RGB-A)
10-shot image generation	FMB Dataset	mIoU	64.32	StitchFusion+FFMs (RGB-Infrared)
10-shot image generation	FMB Dataset	mIoU	63.3	StitchFusion (RGB-Infrared)
10-shot image generation	DeLiVER	mIoU	68.18	StitchFusion(RGB-D-E-LiDAR)
10-shot image generation	DeLiVER	mIoU	66.65	StitchFusion (RGB-D-LiDAR)
10-shot image generation	DeLiVER	mIoU	66.03	StitchFusion (RGB-D-Event)
10-shot image generation	DeLiVER	mIoU	65.75	StitchFusion (RGB-Depth)
10-shot image generation	DeLiVER	mIoU	58.03	StitchFusion (RGB-LiDAR)
10-shot image generation	DeLiVER	mIoU	57.44	StitchFusion (RGB-Event)
10-shot image generation	PST900	mIoU	85.35	StitchFusion (RGB-T)
10-shot image generation	MFN Dataset	mIOU	58.13	StitchFusion

Abstract

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	MCubeS	mIoU	53.92	StitchFusion (RGB-A-D-N)
Semantic Segmentation	MCubeS	mIoU	53.26	StitchFusion (RGB-A-D)
Semantic Segmentation	MCubeS	mIoU	53.21	StitchFusion (RGB-N)
Semantic Segmentation	MCubeS	mIoU	52.72	StitchFusion (RGB-D)
Semantic Segmentation	MCubeS	mIoU	52.68	StitchFusion (RGB-A)
Semantic Segmentation	FMB Dataset	mIoU	64.32	StitchFusion+FFMs (RGB-Infrared)
Semantic Segmentation	FMB Dataset	mIoU	63.3	StitchFusion (RGB-Infrared)
Semantic Segmentation	DeLiVER	mIoU	68.18	StitchFusion(RGB-D-E-LiDAR)
Semantic Segmentation	DeLiVER	mIoU	66.65	StitchFusion (RGB-D-LiDAR)
Semantic Segmentation	DeLiVER	mIoU	66.03	StitchFusion (RGB-D-Event)
Semantic Segmentation	DeLiVER	mIoU	65.75	StitchFusion (RGB-Depth)
Semantic Segmentation	DeLiVER	mIoU	58.03	StitchFusion (RGB-LiDAR)
Semantic Segmentation	DeLiVER	mIoU	57.44	StitchFusion (RGB-Event)
Semantic Segmentation	PST900	mIoU	85.35	StitchFusion (RGB-T)
Semantic Segmentation	MFN Dataset	mIOU	58.13	StitchFusion
Scene Segmentation	PST900	mIoU	85.35	StitchFusion (RGB-T)
Scene Segmentation	MFN Dataset	mIOU	58.13	StitchFusion
2D Object Detection	PST900	mIoU	85.35	StitchFusion (RGB-T)
2D Object Detection	MFN Dataset	mIOU	58.13	StitchFusion
10-shot image generation	MCubeS	mIoU	53.92	StitchFusion (RGB-A-D-N)
10-shot image generation	MCubeS	mIoU	53.26	StitchFusion (RGB-A-D)
10-shot image generation	MCubeS	mIoU	53.21	StitchFusion (RGB-N)
10-shot image generation	MCubeS	mIoU	52.72	StitchFusion (RGB-D)
10-shot image generation	MCubeS	mIoU	52.68	StitchFusion (RGB-A)
10-shot image generation	FMB Dataset	mIoU	64.32	StitchFusion+FFMs (RGB-Infrared)
10-shot image generation	FMB Dataset	mIoU	63.3	StitchFusion (RGB-Infrared)
10-shot image generation	DeLiVER	mIoU	68.18	StitchFusion(RGB-D-E-LiDAR)
10-shot image generation	DeLiVER	mIoU	66.65	StitchFusion (RGB-D-LiDAR)
10-shot image generation	DeLiVER	mIoU	66.03	StitchFusion (RGB-D-Event)
10-shot image generation	DeLiVER	mIoU	65.75	StitchFusion (RGB-Depth)
10-shot image generation	DeLiVER	mIoU	58.03	StitchFusion (RGB-LiDAR)
10-shot image generation	DeLiVER	mIoU	57.44	StitchFusion (RGB-Event)
10-shot image generation	PST900	mIoU	85.35	StitchFusion (RGB-T)
10-shot image generation	MFN Dataset	mIOU	58.13	StitchFusion

StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

Abstract

Results

Related Papers

StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

Abstract

Results

Related Papers