Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le, Barret Zoph

2020-12-13CVPR 2021 1Image Augmentation Data Augmentation Segmentation Semantic Segmentation Instance Segmentation Object Detection

Paper PDF Code Code Code Code Code(official)

Abstract

Building instance segmentation models that are data-efficient and can handle rare object categories is an important challenge in computer vision. Leveraging data augmentations is a promising direction towards addressing this challenge. Here, we perform a systematic study of the Copy-Paste augmentation ([13, 12]) for instance segmentation where we randomly paste objects onto an image. Prior studies on Copy-Paste relied on modeling the surrounding visual context for pasting the objects. However, we find that the simple mechanism of pasting objects randomly is good enough and can provide solid gains on top of strong baselines. Furthermore, we show Copy-Paste is additive with semi-supervised methods that leverage extra data through pseudo labeling (e.g. self-training). On COCO instance segmentation, we achieve 49.1 mask AP and 57.3 box AP, an improvement of +0.6 mask AP and +1.5 box AP over the previous state-of-the-art. We further demonstrate that Copy-Paste can lead to significant improvements on the LVIS benchmark. Our baseline model outperforms the LVIS 2020 Challenge winning entry by +3.6 mask AP on rare categories.

Results

Task	Dataset	Metric	Value	Model
Object Detection	COCO test-dev	box mAP	57.3	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
Object Detection	COCO test-dev	box mAP	54.8	Cascade Eff-B7 NAS-FPN (1280)
Object Detection	COCO minival	box AP	57	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
Object Detection	COCO minival	box AP	54.5	Cascade Eff-B7 NAS-FPN (1280)
Object Detection	LVIS v1.0 val	box AP	41.6	Eff-B7 NAS-FPN (1280, Copy-Paste pre-training))
3D	COCO test-dev	box mAP	57.3	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
3D	COCO test-dev	box mAP	54.8	Cascade Eff-B7 NAS-FPN (1280)
3D	COCO minival	box AP	57	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
3D	COCO minival	box AP	54.5	Cascade Eff-B7 NAS-FPN (1280)
3D	LVIS v1.0 val	box AP	41.6	Eff-B7 NAS-FPN (1280, Copy-Paste pre-training))
Instance Segmentation	COCO minival	mask AP	48.9	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
Instance Segmentation	COCO minival	mask AP	46.8	Cascade Eff-B7 NAS-FPN (1280)
Instance Segmentation	COCO test-dev	mask AP	49.1	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
Instance Segmentation	COCO test-dev	mask AP	46.9	Cascade Eff-B7 NAS-FPN (1280)
Instance Segmentation	LVIS v1.0 val	mask AP	38.1	Eff-B7 NAS-FPN (1280, Copy-Paste pre-training))
2D Classification	COCO test-dev	box mAP	57.3	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
2D Classification	COCO test-dev	box mAP	54.8	Cascade Eff-B7 NAS-FPN (1280)
2D Classification	COCO minival	box AP	57	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
2D Classification	COCO minival	box AP	54.5	Cascade Eff-B7 NAS-FPN (1280)
2D Classification	LVIS v1.0 val	box AP	41.6	Eff-B7 NAS-FPN (1280, Copy-Paste pre-training))
2D Object Detection	COCO test-dev	box mAP	57.3	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
2D Object Detection	COCO test-dev	box mAP	54.8	Cascade Eff-B7 NAS-FPN (1280)
2D Object Detection	COCO minival	box AP	57	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
2D Object Detection	COCO minival	box AP	54.5	Cascade Eff-B7 NAS-FPN (1280)
2D Object Detection	LVIS v1.0 val	box AP	41.6	Eff-B7 NAS-FPN (1280, Copy-Paste pre-training))
16k	COCO test-dev	box mAP	57.3	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
16k	COCO test-dev	box mAP	54.8	Cascade Eff-B7 NAS-FPN (1280)
16k	COCO minival	box AP	57	Cascade Eff-B7 NAS-FPN (1280, self-training Copy Paste, single-scale)
16k	COCO minival	box AP	54.5	Cascade Eff-B7 NAS-FPN (1280)
16k	LVIS v1.0 val	box AP	41.6	Eff-B7 NAS-FPN (1280, Copy-Paste pre-training))

Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

Abstract

Results

Related Papers

Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

Abstract

Results

Related Papers