End-to-End Object Detection with Transformers

Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko

2020-05-26ECCV 2020 8Panoptic Segmentation Real-Time Object Detection 2D Object Detection Object Detection

Paper PDF Code Code Code Code Code Code Code Code Code(official)Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code

Abstract

We present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor generation that explicitly encode our prior knowledge about the task. The main ingredients of the new framework, called DEtection TRansformer or DETR, are a set-based global loss that forces unique predictions via bipartite matching, and a transformer encoder-decoder architecture. Given a fixed small set of learned object queries, DETR reasons about the relations of the objects and the global image context to directly output the final set of predictions in parallel. The new model is conceptually simple and does not require a specialized library, unlike many other modern detectors. DETR demonstrates accuracy and run-time performance on par with the well-established and highly-optimized Faster RCNN baseline on the challenging COCO object detection dataset. Moreover, DETR can be easily generalized to produce panoptic segmentation in a unified manner. We show that it significantly outperforms competitive baselines. Training code and pretrained models are available at https://github.com/facebookresearch/detr.

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	COCO minival	AP	33	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	PQ	45.1	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	PQst	37	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	PQth	50.5	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	RQ	55.5	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	RQst	46	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	RQth	61.7	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	SQ	79.9	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	SQst	78.5	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	SQth	80.9	DETR-R101 (ResNet-101)
Semantic Segmentation	COCO minival	AP	39.7	PanopticFPN++
Semantic Segmentation	COCO minival	PQ	44.1	PanopticFPN++
Semantic Segmentation	COCO minival	PQst	33.6	PanopticFPN++
Semantic Segmentation	COCO minival	PQth	51	PanopticFPN++
Semantic Segmentation	COCO minival	RQ	53.3	PanopticFPN++
Semantic Segmentation	COCO minival	RQst	42.1	PanopticFPN++
Semantic Segmentation	COCO minival	RQth	60.6	PanopticFPN++
Semantic Segmentation	COCO minival	SQ	79.5	PanopticFPN++
Semantic Segmentation	COCO minival	SQst	74	PanopticFPN++
Semantic Segmentation	COCO minival	SQth	83.2	PanopticFPN++
Object Detection	COCO-O	Average mAP	17.1	DETR (ResNet-50)
Object Detection	COCO-O	Effective Robustness	-1.82	DETR (ResNet-50)
Object Detection	COCO minival	AP50	64.7	DETR-DC5 (ResNet-101)
Object Detection	COCO minival	AP75	47.7	DETR-DC5 (ResNet-101)
Object Detection	COCO minival	APL	62.3	DETR-DC5 (ResNet-101)
Object Detection	COCO minival	APM	49.5	DETR-DC5 (ResNet-101)
Object Detection	COCO minival	APS	23.7	DETR-DC5 (ResNet-101)
Object Detection	COCO minival	box AP	44.9	DETR-DC5 (ResNet-101)
Object Detection	COCO minival	AP50	63.9	Faster RCNN-R101-FPN+
Object Detection	COCO minival	AP75	47.8	Faster RCNN-R101-FPN+
Object Detection	COCO minival	APL	56	Faster RCNN-R101-FPN+
Object Detection	COCO minival	APM	48.1	Faster RCNN-R101-FPN+
Object Detection	COCO minival	APS	27.2	Faster RCNN-R101-FPN+
Object Detection	COCO minival	box AP	44	Faster RCNN-R101-FPN+
Object Detection	COCO (Common Objects in Context)	FPS (V100, b=1)	26	Faster RCNN-FPN+
Object Detection	COCO (Common Objects in Context)	box AP	42	Faster RCNN-FPN+
3D	COCO-O	Average mAP	17.1	DETR (ResNet-50)
3D	COCO-O	Effective Robustness	-1.82	DETR (ResNet-50)
3D	COCO minival	AP50	64.7	DETR-DC5 (ResNet-101)
3D	COCO minival	AP75	47.7	DETR-DC5 (ResNet-101)
3D	COCO minival	APL	62.3	DETR-DC5 (ResNet-101)
3D	COCO minival	APM	49.5	DETR-DC5 (ResNet-101)
3D	COCO minival	APS	23.7	DETR-DC5 (ResNet-101)
3D	COCO minival	box AP	44.9	DETR-DC5 (ResNet-101)
3D	COCO minival	AP50	63.9	Faster RCNN-R101-FPN+
3D	COCO minival	AP75	47.8	Faster RCNN-R101-FPN+
3D	COCO minival	APL	56	Faster RCNN-R101-FPN+
3D	COCO minival	APM	48.1	Faster RCNN-R101-FPN+
3D	COCO minival	APS	27.2	Faster RCNN-R101-FPN+
3D	COCO minival	box AP	44	Faster RCNN-R101-FPN+
3D	COCO (Common Objects in Context)	FPS (V100, b=1)	26	Faster RCNN-FPN+
3D	COCO (Common Objects in Context)	box AP	42	Faster RCNN-FPN+
2D Classification	COCO-O	Average mAP	17.1	DETR (ResNet-50)
2D Classification	COCO-O	Effective Robustness	-1.82	DETR (ResNet-50)
2D Classification	COCO minival	AP50	64.7	DETR-DC5 (ResNet-101)
2D Classification	COCO minival	AP75	47.7	DETR-DC5 (ResNet-101)
2D Classification	COCO minival	APL	62.3	DETR-DC5 (ResNet-101)
2D Classification	COCO minival	APM	49.5	DETR-DC5 (ResNet-101)
2D Classification	COCO minival	APS	23.7	DETR-DC5 (ResNet-101)
2D Classification	COCO minival	box AP	44.9	DETR-DC5 (ResNet-101)
2D Classification	COCO minival	AP50	63.9	Faster RCNN-R101-FPN+
2D Classification	COCO minival	AP75	47.8	Faster RCNN-R101-FPN+
2D Classification	COCO minival	APL	56	Faster RCNN-R101-FPN+
2D Classification	COCO minival	APM	48.1	Faster RCNN-R101-FPN+
2D Classification	COCO minival	APS	27.2	Faster RCNN-R101-FPN+
2D Classification	COCO minival	box AP	44	Faster RCNN-R101-FPN+
2D Classification	COCO (Common Objects in Context)	FPS (V100, b=1)	26	Faster RCNN-FPN+
2D Classification	COCO (Common Objects in Context)	box AP	42	Faster RCNN-FPN+
2D Object Detection	COCO-O	Average mAP	17.1	DETR (ResNet-50)
2D Object Detection	COCO-O	Effective Robustness	-1.82	DETR (ResNet-50)
2D Object Detection	COCO minival	AP50	64.7	DETR-DC5 (ResNet-101)
2D Object Detection	COCO minival	AP75	47.7	DETR-DC5 (ResNet-101)
2D Object Detection	COCO minival	APL	62.3	DETR-DC5 (ResNet-101)
2D Object Detection	COCO minival	APM	49.5	DETR-DC5 (ResNet-101)
2D Object Detection	COCO minival	APS	23.7	DETR-DC5 (ResNet-101)
2D Object Detection	COCO minival	box AP	44.9	DETR-DC5 (ResNet-101)
2D Object Detection	COCO minival	AP50	63.9	Faster RCNN-R101-FPN+
2D Object Detection	COCO minival	AP75	47.8	Faster RCNN-R101-FPN+
2D Object Detection	COCO minival	APL	56	Faster RCNN-R101-FPN+
2D Object Detection	COCO minival	APM	48.1	Faster RCNN-R101-FPN+
2D Object Detection	COCO minival	APS	27.2	Faster RCNN-R101-FPN+
2D Object Detection	COCO minival	box AP	44	Faster RCNN-R101-FPN+
2D Object Detection	COCO (Common Objects in Context)	FPS (V100, b=1)	26	Faster RCNN-FPN+
2D Object Detection	COCO (Common Objects in Context)	box AP	42	Faster RCNN-FPN+
10-shot image generation	COCO minival	AP	33	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	PQ	45.1	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	PQst	37	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	PQth	50.5	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	RQ	55.5	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	RQst	46	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	RQth	61.7	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	SQ	79.9	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	SQst	78.5	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	SQth	80.9	DETR-R101 (ResNet-101)
10-shot image generation	COCO minival	AP	39.7	PanopticFPN++
10-shot image generation	COCO minival	PQ	44.1	PanopticFPN++
10-shot image generation	COCO minival	PQst	33.6	PanopticFPN++
10-shot image generation	COCO minival	PQth	51	PanopticFPN++
10-shot image generation	COCO minival	RQ	53.3	PanopticFPN++
10-shot image generation	COCO minival	RQst	42.1	PanopticFPN++
10-shot image generation	COCO minival	RQth	60.6	PanopticFPN++
10-shot image generation	COCO minival	SQ	79.5	PanopticFPN++
10-shot image generation	COCO minival	SQst	74	PanopticFPN++
10-shot image generation	COCO minival	SQth	83.2	PanopticFPN++
Panoptic Segmentation	COCO minival	AP	33	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	PQ	45.1	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	PQst	37	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	PQth	50.5	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	RQ	55.5	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	RQst	46	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	RQth	61.7	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	SQ	79.9	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	SQst	78.5	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	SQth	80.9	DETR-R101 (ResNet-101)
Panoptic Segmentation	COCO minival	AP	39.7	PanopticFPN++
Panoptic Segmentation	COCO minival	PQ	44.1	PanopticFPN++
Panoptic Segmentation	COCO minival	PQst	33.6	PanopticFPN++
Panoptic Segmentation	COCO minival	PQth	51	PanopticFPN++
Panoptic Segmentation	COCO minival	RQ	53.3	PanopticFPN++
Panoptic Segmentation	COCO minival	RQst	42.1	PanopticFPN++
Panoptic Segmentation	COCO minival	RQth	60.6	PanopticFPN++
Panoptic Segmentation	COCO minival	SQ	79.5	PanopticFPN++
Panoptic Segmentation	COCO minival	SQst	74	PanopticFPN++
Panoptic Segmentation	COCO minival	SQth	83.2	PanopticFPN++
16k	COCO-O	Average mAP	17.1	DETR (ResNet-50)
16k	COCO-O	Effective Robustness	-1.82	DETR (ResNet-50)
16k	COCO minival	AP50	64.7	DETR-DC5 (ResNet-101)
16k	COCO minival	AP75	47.7	DETR-DC5 (ResNet-101)
16k	COCO minival	APL	62.3	DETR-DC5 (ResNet-101)
16k	COCO minival	APM	49.5	DETR-DC5 (ResNet-101)
16k	COCO minival	APS	23.7	DETR-DC5 (ResNet-101)
16k	COCO minival	box AP	44.9	DETR-DC5 (ResNet-101)
16k	COCO minival	AP50	63.9	Faster RCNN-R101-FPN+
16k	COCO minival	AP75	47.8	Faster RCNN-R101-FPN+
16k	COCO minival	APL	56	Faster RCNN-R101-FPN+
16k	COCO minival	APM	48.1	Faster RCNN-R101-FPN+
16k	COCO minival	APS	27.2	Faster RCNN-R101-FPN+
16k	COCO minival	box AP	44	Faster RCNN-R101-FPN+
16k	COCO (Common Objects in Context)	FPS (V100, b=1)	26	Faster RCNN-FPN+
16k	COCO (Common Objects in Context)	box AP	42	Faster RCNN-FPN+

End-to-End Object Detection with Transformers

Abstract

Results

Related Papers

End-to-End Object Detection with Transformers

Abstract

Results

Related Papers