X-volution: On the unification of convolution and self-attention

Xuanhong Chen, Hang Wang, Bingbing Ni

2021-06-04Image Classification Instance Segmentation Object Detection

Abstract

Convolution and self-attention are acting as two fundamental building blocks in deep neural networks, where the former extracts local image features in a linear way while the latter non-locally encodes high-order contextual relationships. Though essentially complementary to each other, i.e., first-/high-order, stat-of-the-art architectures, i.e., CNNs or transformers lack a principled way to simultaneously apply both operations in a single computational module, due to their heterogeneous computing pattern and excessive burden of global dot-product for visual tasks. In this work, we theoretically derive a global self-attention approximation scheme, which approximates a self-attention via the convolution operation on transformed features. Based on the approximated scheme, we establish a multi-branch elementary module composed of both convolution and self-attention operation, capable of unifying both local and non-local feature interaction. Importantly, once trained, this multi-branch module could be conditionally converted into a single standard convolution operation via structural re-parameterization, rendering a pure convolution styled operator named X-volution, ready to be plugged into any modern networks as an atomic operation. Extensive experiments demonstrate that the proposed X-volution, achieves highly competitive visual understanding improvements (+1.2% top-1 accuracy on ImageNet classification, +1.7 box AP and +1.5 mask AP on COCO detection and segmentation).

Results

Task	Dataset	Metric	Value	Model
Object Detection	COCO minival	AP50	64	Faster R-CNN (FPN, X-volution)
Object Detection	COCO minival	AP75	46.4	Faster R-CNN (FPN, X-volution)
Object Detection	COCO minival	APL	55	Faster R-CNN (FPN, X-volution)
Object Detection	COCO minival	APM	46	Faster R-CNN (FPN, X-volution)
Object Detection	COCO minival	APS	26.9	Faster R-CNN (FPN, X-volution)
Object Detection	COCO minival	box AP	42.8	Faster R-CNN (FPN, X-volution)
3D	COCO minival	AP50	64	Faster R-CNN (FPN, X-volution)
3D	COCO minival	AP75	46.4	Faster R-CNN (FPN, X-volution)
3D	COCO minival	APL	55	Faster R-CNN (FPN, X-volution)
3D	COCO minival	APM	46	Faster R-CNN (FPN, X-volution)
3D	COCO minival	APS	26.9	Faster R-CNN (FPN, X-volution)
3D	COCO minival	box AP	42.8	Faster R-CNN (FPN, X-volution)
Instance Segmentation	COCO minival	APL	53.1	Mask R-CNN (FPN, X-volution, SA)
Instance Segmentation	COCO minival	APM	40	Mask R-CNN (FPN, X-volution, SA)
Instance Segmentation	COCO minival	APS	19.2	Mask R-CNN (FPN, X-volution, SA)
Instance Segmentation	COCO minival	mask AP	37.2	Mask R-CNN (FPN, X-volution, SA)
2D Classification	COCO minival	AP50	64	Faster R-CNN (FPN, X-volution)
2D Classification	COCO minival	AP75	46.4	Faster R-CNN (FPN, X-volution)
2D Classification	COCO minival	APL	55	Faster R-CNN (FPN, X-volution)
2D Classification	COCO minival	APM	46	Faster R-CNN (FPN, X-volution)
2D Classification	COCO minival	APS	26.9	Faster R-CNN (FPN, X-volution)
2D Classification	COCO minival	box AP	42.8	Faster R-CNN (FPN, X-volution)
2D Object Detection	COCO minival	AP50	64	Faster R-CNN (FPN, X-volution)
2D Object Detection	COCO minival	AP75	46.4	Faster R-CNN (FPN, X-volution)
2D Object Detection	COCO minival	APL	55	Faster R-CNN (FPN, X-volution)
2D Object Detection	COCO minival	APM	46	Faster R-CNN (FPN, X-volution)
2D Object Detection	COCO minival	APS	26.9	Faster R-CNN (FPN, X-volution)
2D Object Detection	COCO minival	box AP	42.8	Faster R-CNN (FPN, X-volution)
16k	COCO minival	AP50	64	Faster R-CNN (FPN, X-volution)
16k	COCO minival	AP75	46.4	Faster R-CNN (FPN, X-volution)
16k	COCO minival	APL	55	Faster R-CNN (FPN, X-volution)
16k	COCO minival	APM	46	Faster R-CNN (FPN, X-volution)
16k	COCO minival	APS	26.9	Faster R-CNN (FPN, X-volution)
16k	COCO minival	box AP	42.8	Faster R-CNN (FPN, X-volution)

X-volution: On the unification of convolution and self-attention

Abstract

Results

Related Papers

X-volution: On the unification of convolution and self-attention

Abstract

Results

Related Papers