GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer

Ding Jia, Jianyuan Guo, Kai Han, Han Wu, Chao Zhang, Chang Xu, Xinghao Chen

2024-06-03Semantic Segmentation object-detection 3D Object Detection Object Detection Image-to-Image Translation

Abstract

Cross-modal transformers have demonstrated superiority in various vision tasks by effectively integrating different modalities. This paper first critiques prior token exchange methods which replace less informative tokens with inter-modal features, and demonstrate exchange based methods underperform cross-attention mechanisms, while the computational demand of the latter inevitably restricts its use with longer sequences. To surmount the computational challenges, we propose GeminiFusion, a pixel-wise fusion approach that capitalizes on aligned cross-modal representations. GeminiFusion elegantly combines intra-modal and inter-modal attentions, dynamically integrating complementary information across modalities. We employ a layer-adaptive noise to adaptively control their interplay on a per-layer basis, thereby achieving a harmonized fusion process. Notably, GeminiFusion maintains linear complexity with respect to the number of input tokens, ensuring this multimodal framework operates with efficiency comparable to unimodal networks. Comprehensive evaluations across multimodal image-to-image translation, 3D object detection and arbitrary-modal semantic segmentation tasks, including RGB, depth, LiDAR, event data, etc. demonstrate the superior performance of our GeminiFusion against leading-edge techniques. The PyTorch code is available at https://github.com/JiaDingCN/GeminiFusion

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	DELIVER	mIoU	66.9	GeminiFusion
Semantic Segmentation	SUN-RGBD	Mean IoU	54.6	GeminiFusion (Swin-Large)
Semantic Segmentation	SUN-RGBD	Mean IoU	53.3	GeminiFusion (MiT-B5)
Semantic Segmentation	SUN-RGBD	Mean IoU	52.7	GeminiFusion (MiT-B3)
Semantic Segmentation	NYU Depth v2	Mean IoU	60.9	GeminiFusion (Swin-Large)
Semantic Segmentation	NYU Depth v2	Mean IoU	60.2	GeminiFusion (Swin-Large)
Semantic Segmentation	NYU Depth v2	Mean IoU	57.7	GeminiFusion (MiT-B5)
Semantic Segmentation	NYU Depth v2	Mean IoU	56.8	GeminiFusion (MiT-B3)
Semantic Segmentation	DeLiVER	mIoU	66.9	GeminiFusion
10-shot image generation	DELIVER	mIoU	66.9	GeminiFusion
10-shot image generation	SUN-RGBD	Mean IoU	54.6	GeminiFusion (Swin-Large)
10-shot image generation	SUN-RGBD	Mean IoU	53.3	GeminiFusion (MiT-B5)
10-shot image generation	SUN-RGBD	Mean IoU	52.7	GeminiFusion (MiT-B3)
10-shot image generation	NYU Depth v2	Mean IoU	60.9	GeminiFusion (Swin-Large)
10-shot image generation	NYU Depth v2	Mean IoU	60.2	GeminiFusion (Swin-Large)
10-shot image generation	NYU Depth v2	Mean IoU	57.7	GeminiFusion (MiT-B5)
10-shot image generation	NYU Depth v2	Mean IoU	56.8	GeminiFusion (MiT-B3)
10-shot image generation	DeLiVER	mIoU	66.9	GeminiFusion

GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer

Abstract

Results

Related Papers

GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer

Abstract

Results

Related Papers