16k on COCO minival

Metric: AP75 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide augmentations

Sort:

#	Model↕	AP75▼	Augmentations	Paper	Date↕	Code
1	Focal-Stable-DINO (Focal-Huge, no TTA)	71.4	Yes	A Strong and Reproducible Object Detector with O...	2023-04-25	Code
2	EVA	70.8	Yes	EVA: Exploring the Limits of Masked Visual Repre...	2022-11-14	Code
3	UNINEXT-H	66.7	Yes	Universal Instance Perception as Object Discover...	2023-03-12	Code
4	QueryInst (single scale)	61.7	No	Instances as Queries	2021-05-05	Code
5	SOLQ (Swin-L, single scale)	61.3	No	SOLQ: Segmenting Objects by Learning Queries	2021-06-04	Code
6	YOLOv4-P7 CSP-P7 (single-scale, 16 fps)	60.7	No	Scaled-YOLOv4: Scaling Cross Stage Partial Network	2020-11-16	Code
7	YOLOR-D6 (1280, single-scale, 31 fps)	60.6	No	You Only Learn One Representation: Unified Netwo...	2021-05-10	Code
8	EfficientDet-D7x (single-scale)	59	No	EfficientDet: Scalable and Efficient Object Dete...	2019-11-20	Code
9	UniverseNet-20.08d (Res2Net-101, DCN, multi-scale)	58.9	No	USB: Universal-Scale Object Detection Benchmark	2021-03-25	Code
10	YOLOR-P6 (1280, single-scale, 72 fps)	57.4	No	You Only Learn One Representation: Unified Netwo...	2021-05-10	Code
11	ResNeSt-200 (multi-scale)	57.07	No	ResNeSt: Split-Attention Networks	2020-04-19	Code
12	GCNet (ResNeXt-101 + DCN + cascade + GC r4)	56.1	No	Global Context Networks	2020-12-24	Code
13	ELSA-S (Cascade Mask RCNN)	56	No	ELSA: Enhanced Local Self-Attention for Vision T...	2021-12-23	Code
14	FocalNet-T (LRF, Cascade Mask R-CNN)	56	No	Focal Modulation Networks	2022-03-22	Code
15	DINO-5scale (24 epoch)	56	No	DINO: DETR with Improved DeNoising Anchor Boxes ...	2022-03-07	Code
16	DINO-5scale (36 epoch)	55.8	No	DINO: DETR with Improved DeNoising Anchor Boxes ...	2022-03-07	Code
17	FocalNet-T (SRF, Cascade Mask R-CNN)	55.8	No	Focal Modulation Networks	2022-03-22	Code
18	ResNeSt-200-DCN (single-scale)	55.4	No	ResNeSt: Split-Attention Networks	2020-04-19	Code
19	UniverseNet-20.08d (Res2Net-101, DCN, single-scale)	55.4	No	USB: Universal-Scale Object Detection Benchmark	2021-03-25	Code
20	ResNeSt-200 (single-scale)	55.17	No	ResNeSt: Split-Attention Networks	2020-04-19	Code
21	Sparse R-CNN (PVTv2-B2)	54.9	No	PVT v2: Improved Baselines with Pyramid Vision T...	2021-06-25	Code
22	BoTNet 200 (Mask R-CNN, single scale, 72 epochs)	54.6	No	Bottleneck Transformers for Visual Recognition	2021-01-27	Code
23	BoTNet 152 (Mask R-CNN, single scale, 72 epochs)	54.2	No	Bottleneck Transformers for Visual Recognition	2021-01-27	Code
24	DN-Deformable-DETR-R50++	53.8	No	DN-DETR: Accelerate DETR Training by Introducing...	2022-03-02	Code
25	REGO-Deformable DETR-X101	53.1	No	Recurrent Glimpse-based Decoder for Detection wi...	2021-12-09	Code
26	Mask R-CNN (ResNeXt-152-FPN, cascade)	52.9	No	Rethinking ImageNet Pre-training	2018-11-21	Code
27	ELSA-S (Mask RCNN)	52.9	No	ELSA: Enhanced Local Self-Attention for Vision T...	2021-12-23	Code
28	UniverseNet-20.08 (Res2Net-50, DCN, single-scale)	52.6	No	USB: Universal-Scale Object Detection Benchmark	2021-03-25	Code
29	GCNet (ResNeXt-101 + DCN + cascade + GC r16)	52.2	No	GCNet: Non-local Networks Meet Squeeze-Excitatio...	2019-04-25	Code
30	MAE-Det(MAE-Det-L+GFLV2)	52.2	No	MAE-DET: Revisiting Maximum Entropy Principle in...	2021-11-26	Code
31	Res2Net101+HTC	51.3	No	Res2Net: A New Multi-scale Backbone Architecture	2019-04-02	Code
32	Mask R-CNN (ResNeXt-152-FPN)	51.1	No	Rethinking ImageNet Pre-training	2018-11-21	Code
33	Cascade Mask R-CNN (ResNet-50)	50.5	No	Deep Residual Learning for Image Recognition	2015-12-10	Code
34	HoughNet (HG-104, MS)	50.3	No	HoughNet: Integrating near and long-range eviden...	2020-07-05	Code
35	DAB-DETR-DC5-R101	50.2	No	DAB-DETR: Dynamic Anchor Boxes are Better Querie...	2022-01-28	Code
36	Conditional DETR-DC5-R101	49.5	No	Conditional DETR for Fast Training Convergence	2021-08-13	Code
37	Sparse R-CNN (ResNet-101, learnable proposals, random crop aug, FPN)	49.5	No	Sparse R-CNN: End-to-End Object Detection with L...	2020-11-25	Code
38	Mask R-CNN-FPN (AOGNet-40M)	49.1	No	Attentive Normalization	2019-08-04	Code
39	Mask R-CNN (ResNeXt-152 + 1 NL)	48.9	No	Non-local Neural Networks	2017-11-21	Code
40	R3-CNN (ResNet-50-FPN, DCN)	48.9	No	Recursively Refined R-CNN: Instance Segmentation...	2021-04-03	Code
41	Anchor DETR-DC5-R101	48.8	No	Anchor DETR: Query Design for Transformer-Based ...	2021-09-15	Code
42	Cascade R-CNN (HRNetV2p-W48)	48.7	No	Deep High-Resolution Representation Learning for...	2019-08-20	Code
43	Pix2seq (R101-DC5)	48.6	No	Pix2seq: A Language Modeling Framework for Objec...	2021-09-22	Code
44	Conditional DETR-DC5-R50	48.5	No	Conditional DETR for Fast Training Convergence	2021-08-13	Code
45	R3-CNN (ResNet-50-FPN, GC-Net)	48.4	No	Recursively Refined R-CNN: Instance Segmentation...	2021-04-03	Code
46	GFL (ResNet-50)	48.3	No	Deep Residual Learning for Image Recognition	2015-12-10	Code
47	Sparse R-CNN (ResNet-50, learnable proposals, random crop aug, FPN)	48.2	No	Sparse R-CNN: End-to-End Object Detection with L...	2020-11-25	Code
48	Faster RCNN-R101-FPN+	47.8	No	End-to-End Object Detection with Transformers	2020-05-26	Code
49	DETR-DC5 (ResNet-101)	47.7	No	End-to-End Object Detection with Transformers	2020-05-26	Code
50	Cascade R-CNN (HRNetV2p-W32)	47.7	No	Deep High-Resolution Representation Learning for...	2019-08-20	Code
51	RetinaNet (ViL-Base, multi-scale, 3x)	47.6	No	Multi-Scale Vision Longformer: A New Vision Tran...	2021-03-29	Code
52	Conditional DETR-R101	47.5	No	Conditional DETR for Fast Training Convergence	2021-08-13	Code
53	Anchor DETR-DC5-R50	47.5	No	Anchor DETR: Query Design for Transformer-Based ...	2021-09-15	Code
54	DAB-DETR-R101	47.2	No	DAB-DETR: Dynamic Anchor Boxes are Better Querie...	2022-01-28	Code
55	Sparse R-CNN (ResNet-101, FPN)	47.2	No	Sparse R-CNN: End-to-End Object Detection with L...	2020-11-25	Code
56	Mask R-CNN-FPN (ResNeXt-101, GN+WS)	47.11	No	Micro-Batch Training with Batch-Channel Normaliz...	2019-03-25	Code
57	RetinaNet (ViL-Base)	47.1	No	Multi-Scale Vision Longformer: A New Vision Tran...	2021-03-29	Code
58	ATSS (ResNet-50)	47	No	Deep Residual Learning for Image Recognition	2015-12-10	Code
59	HoughNet (HG-104)	46.9	No	HoughNet: Integrating near and long-range eviden...	2020-07-05	Code
60	ExtremeNet (Hourglass-104, multi-scale)	46.8	No	Bottom-up Object Detection by Grouping Extreme a...	2019-01-23	Code
61	Cascade R-CNN (ResNet-101-FPN+, cascade)	46.6	No	Cascade R-CNN: Delving into High Quality Object ...	2017-12-03	Code
62	Faster R-CNN (FPN, X-volution)	46.4	No	X-volution: On the unification of convolution an...	2021-06-04	-
63	R3-CNN (ResNet-50-FPN)	46.3	No	Recursively Refined R-CNN: Instance Segmentation...	2021-04-03	Code
64	Mask R-CNN (ResNet-101-FPN, GroupNorm, long)	46.2	No	Group Normalization	2018-03-22	Code
65	PVT-Large (RetinaNet 3x,MS)	46.1	No	Pyramid Vision Transformer: A Versatile Backbone...	2021-02-24	Code
66	Pix2seq (R50-DC5 )	46.1	No	Pix2seq: A Language Modeling Framework for Objec...	2021-09-22	Code
67	Faster R-CNN (HRNetV2p-W48)	45.9	No	Deep High-Resolution Representation Learning for...	2019-08-20	Code
68	Conditional DETR-R50	45.7	No	Conditional DETR for Fast Training Convergence	2021-08-13	Code
69	Sparse R-CNN (ResNet-50, FPN)	45.7	No	Sparse R-CNN: End-to-End Object Detection with L...	2020-11-25	Code
70	Faster R-CNN (LIP-ResNet-101)	45.6	No	LIP: Local Importance-based Pooling	2019-08-12	Code
71	R3-CNN (ResNet-50-FPN, GRoIE)	45.6	No	Recursively Refined R-CNN: Instance Segmentation...	2021-04-03	Code
72	TridentNet (ResNet-101)	45.5	No	Scale-Aware Trident Networks for Object Detection	2019-01-07	Code
73	PVT-Large (RetinaNet 1x)	45.4	No	Pyramid Vision Transformer: A Versatile Backbone...	2021-02-24	Code
74	Cascade R-CNN (HRNetV2p-W18)	44.9	No	Deep High-Resolution Representation Learning for...	2019-08-20	Code
75	PoolFormer-S36 (Mask R-CNN)	44.8	No	MetaFormer Is Actually What You Need for Vision	2021-11-22	Code
76	Faster R-CNN (HRNetV2p-W32)	44.8	No	Deep High-Resolution Representation Learning for...	2019-08-20	Code
77	Mask R-CNN (ResNet-101 + 1 NL)	44.5	No	Non-local Neural Networks	2017-11-21	Code
78	Grid R-CNN (ResNet-101-FPN)	44.4	No	Grid R-CNN	2018-11-29	Code
79	Mask R-CNN (ResNet-50-FPN, GroupNorm, long)	44.4	No	Group Normalization	2018-03-22	Code
80	PPDet (ResNet-101-FPN)	44.2	No	Reducing Label Noise in Anchor-Free Object Detec...	2020-08-03	Code
81	RetinaMask (ResNet-101-FPN)	44.1	No	RetinaMask: Learning to predict masks improves s...	2019-01-10	Code
82	GCnet (ResNet-50-FPN, GRoIE)	44	No	GCNet: Non-local Networks Meet Squeeze-Excitatio...	2019-04-25	Code
83	Mask R-CNN (ResNet-50-FPN, GroupNorm)	44	No	Group Normalization	2018-03-22	Code
84	CenterNet511 (Hourglass-52)	43.9	No	CenterNet: Keypoint Triplets for Object Detection	2019-04-17	Code
85	Cascade R-CNN (ResNet-50-FPN+)	43.7	No	Cascade R-CNN: Delving into High Quality Object ...	2017-12-03	Code
86	ExtremeNet (Hourglass-104, single-scale)	43.7	No	Bottom-up Object Detection by Grouping Extreme a...	2019-01-23	Code
87	Faster R-CNN+aLRP Loss (ResNet-50, 500 scale)	43.3	No	A Ranking-based, Balanced Loss Function Unifying...	2020-09-28	Code
88	FPN+	43.3	No	Feature Pyramid Networks for Object Detection	2016-12-09	Code
89	Grid R-CNN (ResNet-50-FPN)	42.4	No	Grid R-CNN	2018-11-29	Code
90	RetinaNet+aLRP Loss (ResNet-50, 500 scale)	42.3	No	A Ranking-based, Balanced Loss Function Unifying...	2020-09-28	Code
91	Libra R-CNN (ResNet-50 FPN)	42	No	Libra R-CNN: Towards Balanced Learning for Objec...	2019-04-04	Code
92	Mask R-CNN (ResNet-50 + 1 NL)	41.9	No	Non-local Neural Networks	2017-11-21	Code
93	Mask R-CNN (ResNet-50-FPN, GRoIE)	41.7	No	A novel Region of Interest Extraction Layer for ...	2020-04-28	Code
94	FoveaBox+aLRP Loss (ResNet-50, 500 scale)	41.5	No	A Ranking-based, Balanced Loss Function Unifying...	2020-09-28	Code
95	FoveaBox (ResNet-101-FPN, 800x800)	41.5	No	FoveaBox: Beyond Anchor-based Object Detector	2019-04-08	Code
96	Faster R-CNN (HRNetV2p-W18)	41.5	No	Deep High-Resolution Representation Learning for...	2019-08-20	Code
97	FCOS (ResNet-50-FPN + improvements)	41.4	No	FCOS: Fully Convolutional One-Stage Object Detec...	2019-04-02	Code
98	CornerNet511 (Hourglass-104)	40.9	No	CornerNet: Detecting Objects as Paired Keypoints	2018-08-03	Code
99	HTC (cascade)	40.7	No	Hybrid Task Cascade for Instance Segmentation	2019-01-22	Code
100	Faster R-CNN (ResNet-50-FPN, GRoIE)	40.6	No	A novel Region of Interest Extraction Layer for ...	2020-04-28	Code
101	FoveaBox+Retina (ResNet-50)	40.5	No	FoveaBox: Beyond Anchor-based Object Detector	2019-04-08	Code
102	FoveaBox (ResNet-101-FPN, 600x600)	40.2	No	FoveaBox: Beyond Anchor-based Object Detector	2019-04-08	Code
103	Mask R-CNN (ResNeXt-101-FPN)	38.9	No	Mask R-CNN	2017-03-20	Code
104	GHM-C + GHM-R (RetinaNet-FPN-ResNet-50, M=30)	38.1	No	Gradient Harmonized Single-stage Detector	2018-11-13	Code
105	FoveaBox (ResNet-50-FPN, 600x600)	37.9	No	FoveaBox: Beyond Anchor-based Object Detector	2019-04-08	Code
106	FSAF (ResNet-50)	37.9	No	Feature Selective Anchor-Free Module for Single-...	2019-03-02	Code

#1Focal-Stable-DINO (Focal-Huge, no TTA)SOTA
71.4
AP75· Augmentations· 2023-04-25
A Strong and Reproducible Object Detector with Only Public Datasets Code
#2EVASOTA
70.8
AP75· Augmentations· 2022-11-14
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale Code
#3UNINEXT-H
66.7
AP75· Augmentations· 2023-03-12
Universal Instance Perception as Object Discovery and Retrieval Code
#4QueryInst (single scale)SOTA
61.7
AP75· 2021-05-05
Instances as Queries Code
#5SOLQ (Swin-L, single scale)
61.3
AP75· 2021-06-04
SOLQ: Segmenting Objects by Learning Queries Code
#6YOLOv4-P7 CSP-P7 (single-scale, 16 fps)SOTA
60.7
AP75· 2020-11-16
Scaled-YOLOv4: Scaling Cross Stage Partial Network Code
#7YOLOR-D6 (1280, single-scale, 31 fps)
60.6
AP75· 2021-05-10
You Only Learn One Representation: Unified Network for Multiple Tasks Code
#8EfficientDet-D7x (single-scale)SOTA
59
AP75· 2019-11-20
EfficientDet: Scalable and Efficient Object Detection Code
#9UniverseNet-20.08d (Res2Net-101, DCN, multi-scale)
58.9
AP75· 2021-03-25
USB: Universal-Scale Object Detection Benchmark Code
#10YOLOR-P6 (1280, single-scale, 72 fps)
57.4
AP75· 2021-05-10
You Only Learn One Representation: Unified Network for Multiple Tasks Code
#11ResNeSt-200 (multi-scale)
57.07
AP75· 2020-04-19
ResNeSt: Split-Attention Networks Code
#12GCNet (ResNeXt-101 + DCN + cascade + GC r4)
56.1
AP75· 2020-12-24
Global Context Networks Code
#13ELSA-S (Cascade Mask RCNN)
56
AP75· 2021-12-23
ELSA: Enhanced Local Self-Attention for Vision Transformer Code
#14FocalNet-T (LRF, Cascade Mask R-CNN)
56
AP75· 2022-03-22
Focal Modulation Networks Code
#15DINO-5scale (24 epoch)
56
AP75· 2022-03-07
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection Code
#16DINO-5scale (36 epoch)
55.8
AP75· 2022-03-07
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection Code
#17FocalNet-T (SRF, Cascade Mask R-CNN)
55.8
AP75· 2022-03-22
Focal Modulation Networks Code
#18ResNeSt-200-DCN (single-scale)
55.4
AP75· 2020-04-19
ResNeSt: Split-Attention Networks Code
#19UniverseNet-20.08d (Res2Net-101, DCN, single-scale)
55.4
AP75· 2021-03-25
USB: Universal-Scale Object Detection Benchmark Code
#20ResNeSt-200 (single-scale)
55.17
AP75· 2020-04-19
ResNeSt: Split-Attention Networks Code
#21Sparse R-CNN (PVTv2-B2)
54.9
AP75· 2021-06-25
PVT v2: Improved Baselines with Pyramid Vision Transformer Code
#22BoTNet 200 (Mask R-CNN, single scale, 72 epochs)
54.6
AP75· 2021-01-27
Bottleneck Transformers for Visual Recognition Code
#23BoTNet 152 (Mask R-CNN, single scale, 72 epochs)
54.2
AP75· 2021-01-27
Bottleneck Transformers for Visual Recognition Code
#24DN-Deformable-DETR-R50++
53.8
AP75· 2022-03-02
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising Code
#25REGO-Deformable DETR-X101
53.1
AP75· 2021-12-09
Recurrent Glimpse-based Decoder for Detection with Transformer Code
#26Mask R-CNN (ResNeXt-152-FPN, cascade)SOTA
52.9
AP75· 2018-11-21
Rethinking ImageNet Pre-training Code
#27ELSA-S (Mask RCNN)
52.9
AP75· 2021-12-23
ELSA: Enhanced Local Self-Attention for Vision Transformer Code
#28UniverseNet-20.08 (Res2Net-50, DCN, single-scale)
52.6
AP75· 2021-03-25
USB: Universal-Scale Object Detection Benchmark Code
#29GCNet (ResNeXt-101 + DCN + cascade + GC r16)
52.2
AP75· 2019-04-25
GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond Code
#30MAE-Det(MAE-Det-L+GFLV2)
52.2
AP75· 2021-11-26
MAE-DET: Revisiting Maximum Entropy Principle in Zero-Shot NAS for Efficient Object Detection Code
#31Res2Net101+HTC
51.3
AP75· 2019-04-02
Res2Net: A New Multi-scale Backbone Architecture Code
#32Mask R-CNN (ResNeXt-152-FPN)
51.1
AP75· 2018-11-21
Rethinking ImageNet Pre-training Code
#33Cascade Mask R-CNN (ResNet-50)SOTA
50.5
AP75· 2015-12-10
Deep Residual Learning for Image Recognition Code
#34HoughNet (HG-104, MS)
50.3
AP75· 2020-07-05
HoughNet: Integrating near and long-range evidence for bottom-up object detection Code
#35DAB-DETR-DC5-R101
50.2
AP75· 2022-01-28
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR Code
#36Conditional DETR-DC5-R101
49.5
AP75· 2021-08-13
Conditional DETR for Fast Training Convergence Code
#37Sparse R-CNN (ResNet-101, learnable proposals, random crop aug, FPN)
49.5
AP75· 2020-11-25
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals Code
#38Mask R-CNN-FPN (AOGNet-40M)
49.1
AP75· 2019-08-04
Attentive Normalization Code
#39Mask R-CNN (ResNeXt-152 + 1 NL)
48.9
AP75· 2017-11-21
Non-local Neural Networks Code
#40R3-CNN (ResNet-50-FPN, DCN)
48.9
AP75· 2021-04-03
Recursively Refined R-CNN: Instance Segmentation with Self-RoI Rebalancing Code
#41Anchor DETR-DC5-R101
48.8
AP75· 2021-09-15
Anchor DETR: Query Design for Transformer-Based Object Detection Code
#42Cascade R-CNN (HRNetV2p-W48)
48.7
AP75· 2019-08-20
Deep High-Resolution Representation Learning for Visual Recognition Code
#43Pix2seq (R101-DC5)
48.6
AP75· 2021-09-22
Pix2seq: A Language Modeling Framework for Object Detection Code
#44Conditional DETR-DC5-R50
48.5
AP75· 2021-08-13
Conditional DETR for Fast Training Convergence Code
#45R3-CNN (ResNet-50-FPN, GC-Net)
48.4
AP75· 2021-04-03
Recursively Refined R-CNN: Instance Segmentation with Self-RoI Rebalancing Code
#46GFL (ResNet-50)
48.3
AP75· 2015-12-10
Deep Residual Learning for Image Recognition Code
#47Sparse R-CNN (ResNet-50, learnable proposals, random crop aug, FPN)
48.2
AP75· 2020-11-25
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals Code
#48Faster RCNN-R101-FPN+
47.8
AP75· 2020-05-26
End-to-End Object Detection with Transformers Code
#49DETR-DC5 (ResNet-101)
47.7
AP75· 2020-05-26
End-to-End Object Detection with Transformers Code
#50Cascade R-CNN (HRNetV2p-W32)
47.7
AP75· 2019-08-20
Deep High-Resolution Representation Learning for Visual Recognition Code
#51RetinaNet (ViL-Base, multi-scale, 3x)
47.6
AP75· 2021-03-29
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding Code
#52Conditional DETR-R101
47.5
AP75· 2021-08-13
Conditional DETR for Fast Training Convergence Code
#53Anchor DETR-DC5-R50
47.5
AP75· 2021-09-15
Anchor DETR: Query Design for Transformer-Based Object Detection Code
#54DAB-DETR-R101
47.2
AP75· 2022-01-28
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR Code
#55Sparse R-CNN (ResNet-101, FPN)
47.2
AP75· 2020-11-25
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals Code
#56Mask R-CNN-FPN (ResNeXt-101, GN+WS)
47.11
AP75· 2019-03-25
Micro-Batch Training with Batch-Channel Normalization and Weight Standardization Code
#57RetinaNet (ViL-Base)
47.1
AP75· 2021-03-29
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding Code
#58ATSS (ResNet-50)
47
AP75· 2015-12-10
Deep Residual Learning for Image Recognition Code
#59HoughNet (HG-104)
46.9
AP75· 2020-07-05
HoughNet: Integrating near and long-range evidence for bottom-up object detection Code
#60ExtremeNet (Hourglass-104, multi-scale)
46.8
AP75· 2019-01-23
Bottom-up Object Detection by Grouping Extreme and Center Points Code
#61Cascade R-CNN (ResNet-101-FPN+, cascade)
46.6
AP75· 2017-12-03
Cascade R-CNN: Delving into High Quality Object Detection Code
#62Faster R-CNN (FPN, X-volution)
46.4
AP75· 2021-06-04
X-volution: On the unification of convolution and self-attention
#63R3-CNN (ResNet-50-FPN)
46.3
AP75· 2021-04-03
Recursively Refined R-CNN: Instance Segmentation with Self-RoI Rebalancing Code
#64Mask R-CNN (ResNet-101-FPN, GroupNorm, long)
46.2
AP75· 2018-03-22
Group Normalization Code
#65PVT-Large (RetinaNet 3x,MS)
46.1
AP75· 2021-02-24
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Code
#66Pix2seq (R50-DC5 )
46.1
AP75· 2021-09-22
Pix2seq: A Language Modeling Framework for Object Detection Code
#67Faster R-CNN (HRNetV2p-W48)
45.9
AP75· 2019-08-20
Deep High-Resolution Representation Learning for Visual Recognition Code
#68Conditional DETR-R50
45.7
AP75· 2021-08-13
Conditional DETR for Fast Training Convergence Code
#69Sparse R-CNN (ResNet-50, FPN)
45.7
AP75· 2020-11-25
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals Code
#70Faster R-CNN (LIP-ResNet-101)
45.6
AP75· 2019-08-12
LIP: Local Importance-based Pooling Code
#71R3-CNN (ResNet-50-FPN, GRoIE)
45.6
AP75· 2021-04-03
Recursively Refined R-CNN: Instance Segmentation with Self-RoI Rebalancing Code
#72TridentNet (ResNet-101)
45.5
AP75· 2019-01-07
Scale-Aware Trident Networks for Object Detection Code
#73PVT-Large (RetinaNet 1x)
45.4
AP75· 2021-02-24
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Code
#74Cascade R-CNN (HRNetV2p-W18)
44.9
AP75· 2019-08-20
Deep High-Resolution Representation Learning for Visual Recognition Code
#75PoolFormer-S36 (Mask R-CNN)
44.8
AP75· 2021-11-22
MetaFormer Is Actually What You Need for Vision Code
#76Faster R-CNN (HRNetV2p-W32)
44.8
AP75· 2019-08-20
Deep High-Resolution Representation Learning for Visual Recognition Code
#77Mask R-CNN (ResNet-101 + 1 NL)
44.5
AP75· 2017-11-21
Non-local Neural Networks Code
#78Grid R-CNN (ResNet-101-FPN)
44.4
AP75· 2018-11-29
Grid R-CNN Code
#79Mask R-CNN (ResNet-50-FPN, GroupNorm, long)
44.4
AP75· 2018-03-22
Group Normalization Code
#80PPDet (ResNet-101-FPN)
44.2
AP75· 2020-08-03
Reducing Label Noise in Anchor-Free Object Detection Code
#81RetinaMask (ResNet-101-FPN)
44.1
AP75· 2019-01-10
RetinaMask: Learning to predict masks improves state-of-the-art single-shot detection for free Code
#82GCnet (ResNet-50-FPN, GRoIE)
44
AP75· 2019-04-25
GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond Code
#83Mask R-CNN (ResNet-50-FPN, GroupNorm)
44
AP75· 2018-03-22
Group Normalization Code
#84CenterNet511 (Hourglass-52)
43.9
AP75· 2019-04-17
CenterNet: Keypoint Triplets for Object Detection Code
#85Cascade R-CNN (ResNet-50-FPN+)
43.7
AP75· 2017-12-03
Cascade R-CNN: Delving into High Quality Object Detection Code
#86ExtremeNet (Hourglass-104, single-scale)
43.7
AP75· 2019-01-23
Bottom-up Object Detection by Grouping Extreme and Center Points Code
#87Faster R-CNN+aLRP Loss (ResNet-50, 500 scale)
43.3
AP75· 2020-09-28
A Ranking-based, Balanced Loss Function Unifying Classification and Localisation in Object Detection Code
#88FPN+
43.3
AP75· 2016-12-09
Feature Pyramid Networks for Object Detection Code
#89Grid R-CNN (ResNet-50-FPN)
42.4
AP75· 2018-11-29
Grid R-CNN Code
#90RetinaNet+aLRP Loss (ResNet-50, 500 scale)
42.3
AP75· 2020-09-28
A Ranking-based, Balanced Loss Function Unifying Classification and Localisation in Object Detection Code
#91Libra R-CNN (ResNet-50 FPN)
42
AP75· 2019-04-04
Libra R-CNN: Towards Balanced Learning for Object Detection Code
#92Mask R-CNN (ResNet-50 + 1 NL)
41.9
AP75· 2017-11-21
Non-local Neural Networks Code
#93Mask R-CNN (ResNet-50-FPN, GRoIE)
41.7
AP75· 2020-04-28
A novel Region of Interest Extraction Layer for Instance Segmentation Code
#94FoveaBox+aLRP Loss (ResNet-50, 500 scale)
41.5
AP75· 2020-09-28
A Ranking-based, Balanced Loss Function Unifying Classification and Localisation in Object Detection Code
#95FoveaBox (ResNet-101-FPN, 800x800)
41.5
AP75· 2019-04-08
FoveaBox: Beyond Anchor-based Object Detector Code
#96Faster R-CNN (HRNetV2p-W18)
41.5
AP75· 2019-08-20
Deep High-Resolution Representation Learning for Visual Recognition Code
#97FCOS (ResNet-50-FPN + improvements)
41.4
AP75· 2019-04-02
FCOS: Fully Convolutional One-Stage Object Detection Code
#98CornerNet511 (Hourglass-104)
40.9
AP75· 2018-08-03
CornerNet: Detecting Objects as Paired Keypoints Code
#99HTC (cascade)
40.7
AP75· 2019-01-22
Hybrid Task Cascade for Instance Segmentation Code
#100Faster R-CNN (ResNet-50-FPN, GRoIE)
40.6
AP75· 2020-04-28
A novel Region of Interest Extraction Layer for Instance Segmentation Code
#101FoveaBox+Retina (ResNet-50)
40.5
AP75· 2019-04-08
FoveaBox: Beyond Anchor-based Object Detector Code
#102FoveaBox (ResNet-101-FPN, 600x600)
40.2
AP75· 2019-04-08
FoveaBox: Beyond Anchor-based Object Detector Code
#103Mask R-CNN (ResNeXt-101-FPN)
38.9
AP75· 2017-03-20
Mask R-CNN Code
#104GHM-C + GHM-R (RetinaNet-FPN-ResNet-50, M=30)
38.1
AP75· 2018-11-13
Gradient Harmonized Single-stage Detector Code
#105FoveaBox (ResNet-50-FPN, 600x600)
37.9
AP75· 2019-04-08
FoveaBox: Beyond Anchor-based Object Detector Code
#106FSAF (ResNet-50)
37.9
AP75· 2019-03-02
Feature Selective Anchor-Free Module for Single-Shot Object Detection Code