CBNet: A Composite Backbone Network Architecture for Object Detection

TingTing Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei Chu, Jingdong Chen, Haibin Ling

2021-07-01Real-Time Object Detection Instance Segmentation object-detection Object Detection

Abstract

Modern top-performing object detectors depend heavily on backbone networks, whose advances bring consistent performance gains through exploring more effective network structures. In this paper, we propose a novel and flexible backbone framework, namely CBNetV2, to construct high-performance detectors using existing open-sourced pre-trained backbones under the pre-training fine-tuning paradigm. In particular, CBNetV2 architecture groups multiple identical backbones, which are connected through composite connections. Specifically, it integrates the high- and low-level features of multiple backbone networks and gradually expands the receptive field to more efficiently perform object detection. We also propose a better training strategy with assistant supervision for CBNet-based detectors. Without additional pre-training of the composite backbone, CBNetV2 can be adapted to various backbones (CNN-based vs. Transformer-based) and head designs of most mainstream detectors (one-stage vs. two-stage, anchor-based vs. anchor-free-based). Experiments provide strong evidence that, compared with simply increasing the depth and width of the network, CBNetV2 introduces a more efficient, effective, and resource-friendly way to build high-performance backbone networks. Particularly, our Dual-Swin-L achieves 59.4% box AP and 51.6% mask AP on COCO test-dev under the single-model and single-scale testing protocol, which is significantly better than the state-of-the-art result (57.7% box AP and 50.2% mask AP) achieved by Swin-L, while the training schedule is reduced by 6$\times$. With multi-scale testing, we push the current best single model result to a new record of 60.1% box AP and 52.3% mask AP without using extra training data. Code is available at https://github.com/VDIGPKU/CBNetV2.

Results

Task	Dataset	Metric	Value	Model
Object Detection	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Object Detection	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
Object Detection	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
Object Detection	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
Object Detection	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Object Detection	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
3D	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
3D	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
3D	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
3D	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
3D	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
3D	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Instance Segmentation	COCO minival	mask AP	51.8	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Instance Segmentation	COCO minival	mask AP	51	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Instance Segmentation	COCO test-dev	AP50	80.3	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	AP75	62.1	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	APL	70.9	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	APM	59.3	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	APS	39.7	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	mask AP	56.1	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	mask AP	52.3	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Instance Segmentation	COCO test-dev	mask AP	51.6	CBNetV2 (Dual-Swin-L HTC, single-scale)
2D Classification	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Classification	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
2D Classification	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
2D Classification	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
2D Classification	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Classification	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Object Detection	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Object Detection	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
2D Object Detection	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
2D Object Detection	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
2D Object Detection	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Object Detection	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
16k	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
16k	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
16k	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
16k	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
16k	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
16k	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)

Abstract

Results

Task	Dataset	Metric	Value	Model
Object Detection	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Object Detection	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
Object Detection	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
Object Detection	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
Object Detection	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Object Detection	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
3D	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
3D	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
3D	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
3D	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
3D	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
3D	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Instance Segmentation	COCO minival	mask AP	51.8	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Instance Segmentation	COCO minival	mask AP	51	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Instance Segmentation	COCO test-dev	AP50	80.3	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	AP75	62.1	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	APL	70.9	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	APM	59.3	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	APS	39.7	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	mask AP	56.1	CBNetV2 (EVA02, single-scale)
Instance Segmentation	COCO test-dev	mask AP	52.3	CBNetV2 (Dual-Swin-L HTC, multi-scale)
Instance Segmentation	COCO test-dev	mask AP	51.6	CBNetV2 (Dual-Swin-L HTC, single-scale)
2D Classification	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Classification	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
2D Classification	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
2D Classification	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
2D Classification	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Classification	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Object Detection	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Object Detection	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
2D Object Detection	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
2D Object Detection	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
2D Object Detection	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
2D Object Detection	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
16k	COCO test-dev	box mAP	60.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)
16k	COCO test-dev	box mAP	59.4	CBNetV2 (Dual-Swin-L HTC, single-scale)
16k	COCO-O	Average mAP	39	CBNetV2 (Swin-L)
16k	COCO-O	Effective Robustness	12.36	CBNetV2 (Swin-L)
16k	COCO minival	box AP	59.6	CBNetV2 (Dual-Swin-L HTC, multi-scale)
16k	COCO minival	box AP	59.1	CBNetV2 (Dual-Swin-L HTC, multi-scale)

CBNet: A Composite Backbone Network Architecture for Object Detection

Abstract

Results

Related Papers

CBNet: A Composite Backbone Network Architecture for Object Detection

Abstract

Results

Related Papers