A ConvNet for the 2020s

Zhuang Liu, Hanzi Mao, Chao-yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie

2022-01-10CVPR 2022 1Image Classification Domain Generalization Real-Time Object Detection Semantic Segmentation Classification Object Detection

Abstract

The "Roaring 20s" of visual recognition began with the introduction of Vision Transformers (ViTs), which quickly superseded ConvNets as the state-of-the-art image classification model. A vanilla ViT, on the other hand, faces difficulties when applied to general computer vision tasks such as object detection and semantic segmentation. It is the hierarchical Transformers (e.g., Swin Transformers) that reintroduced several ConvNet priors, making Transformers practically viable as a generic vision backbone and demonstrating remarkable performance on a wide variety of vision tasks. However, the effectiveness of such hybrid approaches is still largely credited to the intrinsic superiority of Transformers, rather than the inherent inductive biases of convolutions. In this work, we reexamine the design spaces and test the limits of what a pure ConvNet can achieve. We gradually "modernize" a standard ResNet toward the design of a vision Transformer, and discover several key components that contribute to the performance difference along the way. The outcome of this exploration is a family of pure ConvNet models dubbed ConvNeXt. Constructed entirely from standard ConvNet modules, ConvNeXts compete favorably with Transformers in terms of accuracy and scalability, achieving 87.8% ImageNet top-1 accuracy and outperforming Swin Transformers on COCO detection and ADE20K segmentation, while maintaining the simplicity and efficiency of standard ConvNets.

Results

Task	Dataset	Metric	Value	Model
Domain Adaptation	ImageNet-R	Top-1 Error Rate	31.8	ConvNeXt-XL (Im21k, 384)
Domain Adaptation	ImageNet-A	Top-1 accuracy %	69.3	ConvNeXt-XL (Im21k, 384)
Domain Adaptation	ImageNet-C	mean Corruption Error (mCE)	38.8	ConvNeXt-XL (Im21k) (augmentation overlap with ImageNet-C)
Domain Adaptation	VizWiz-Classification	Accuracy - All Images	53.5	ConvNeXt-B
Domain Adaptation	VizWiz-Classification	Accuracy - Clean Images	56	ConvNeXt-B
Domain Adaptation	VizWiz-Classification	Accuracy - Corrupted Images	46.9	ConvNeXt-B
Domain Adaptation	ImageNet-Sketch	Top-1 accuracy	55	ConvNeXt-XL (Im21k, 384)
Semantic Segmentation	ImageNet-S	mIoU (test)	48.8	ConvNext-Tiny (P4, 224x224, SUP)
Semantic Segmentation	ImageNet-S	mIoU (val)	48.7	ConvNext-Tiny (P4, 224x224, SUP)
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	3335	ConvNeXt-XL++
Semantic Segmentation	ADE20K	Params (M)	391	ConvNeXt-XL++
Semantic Segmentation	ADE20K	Validation mIoU	54	ConvNeXt-XL++
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	2458	ConvNeXt-L++
Semantic Segmentation	ADE20K	Params (M)	235	ConvNeXt-L++
Semantic Segmentation	ADE20K	Validation mIoU	53.7	ConvNeXt-L++
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	1828	ConvNeXt-B++
Semantic Segmentation	ADE20K	Params (M)	122	ConvNeXt-B++
Semantic Segmentation	ADE20K	Validation mIoU	53.1	ConvNeXt-B++
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	1170	ConvNeXt-B
Semantic Segmentation	ADE20K	Params (M)	122	ConvNeXt-B
Semantic Segmentation	ADE20K	Validation mIoU	49.9	ConvNeXt-B
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	1027	ConvNeXt-S
Semantic Segmentation	ADE20K	Params (M)	82	ConvNeXt-S
Semantic Segmentation	ADE20K	Validation mIoU	49.6	ConvNeXt-S
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	939	ConvNeXt-T
Semantic Segmentation	ADE20K	Params (M)	60	ConvNeXt-T
Semantic Segmentation	ADE20K	Validation mIoU	46.7	ConvNeXt-T
Object Detection	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
Object Detection	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)
Image Classification	ImageNet	GFLOPs	179	ConvNeXt-XL (ImageNet-22k)
Image Classification	ImageNet	GFLOPs	101	ConvNeXt-L (384 res)
Image Classification	ImageNet	GFLOPs	4.5	ConvNeXt-T
3D	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
3D	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)
2D Classification	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
2D Classification	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)
2D Object Detection	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
2D Object Detection	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)
Domain Generalization	ImageNet-R	Top-1 Error Rate	31.8	ConvNeXt-XL (Im21k, 384)
Domain Generalization	ImageNet-A	Top-1 accuracy %	69.3	ConvNeXt-XL (Im21k, 384)
Domain Generalization	ImageNet-C	mean Corruption Error (mCE)	38.8	ConvNeXt-XL (Im21k) (augmentation overlap with ImageNet-C)
Domain Generalization	VizWiz-Classification	Accuracy - All Images	53.5	ConvNeXt-B
Domain Generalization	VizWiz-Classification	Accuracy - Clean Images	56	ConvNeXt-B
Domain Generalization	VizWiz-Classification	Accuracy - Corrupted Images	46.9	ConvNeXt-B
Domain Generalization	ImageNet-Sketch	Top-1 accuracy	55	ConvNeXt-XL (Im21k, 384)
10-shot image generation	ImageNet-S	mIoU (test)	48.8	ConvNext-Tiny (P4, 224x224, SUP)
10-shot image generation	ImageNet-S	mIoU (val)	48.7	ConvNext-Tiny (P4, 224x224, SUP)
10-shot image generation	ADE20K	GFLOPs (512 x 512)	3335	ConvNeXt-XL++
10-shot image generation	ADE20K	Params (M)	391	ConvNeXt-XL++
10-shot image generation	ADE20K	Validation mIoU	54	ConvNeXt-XL++
10-shot image generation	ADE20K	GFLOPs (512 x 512)	2458	ConvNeXt-L++
10-shot image generation	ADE20K	Params (M)	235	ConvNeXt-L++
10-shot image generation	ADE20K	Validation mIoU	53.7	ConvNeXt-L++
10-shot image generation	ADE20K	GFLOPs (512 x 512)	1828	ConvNeXt-B++
10-shot image generation	ADE20K	Params (M)	122	ConvNeXt-B++
10-shot image generation	ADE20K	Validation mIoU	53.1	ConvNeXt-B++
10-shot image generation	ADE20K	GFLOPs (512 x 512)	1170	ConvNeXt-B
10-shot image generation	ADE20K	Params (M)	122	ConvNeXt-B
10-shot image generation	ADE20K	Validation mIoU	49.9	ConvNeXt-B
10-shot image generation	ADE20K	GFLOPs (512 x 512)	1027	ConvNeXt-S
10-shot image generation	ADE20K	Params (M)	82	ConvNeXt-S
10-shot image generation	ADE20K	Validation mIoU	49.6	ConvNeXt-S
10-shot image generation	ADE20K	GFLOPs (512 x 512)	939	ConvNeXt-T
10-shot image generation	ADE20K	Params (M)	60	ConvNeXt-T
10-shot image generation	ADE20K	Validation mIoU	46.7	ConvNeXt-T
16k	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
16k	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)

Abstract

Results

Task	Dataset	Metric	Value	Model
Domain Adaptation	ImageNet-R	Top-1 Error Rate	31.8	ConvNeXt-XL (Im21k, 384)
Domain Adaptation	ImageNet-A	Top-1 accuracy %	69.3	ConvNeXt-XL (Im21k, 384)
Domain Adaptation	ImageNet-C	mean Corruption Error (mCE)	38.8	ConvNeXt-XL (Im21k) (augmentation overlap with ImageNet-C)
Domain Adaptation	VizWiz-Classification	Accuracy - All Images	53.5	ConvNeXt-B
Domain Adaptation	VizWiz-Classification	Accuracy - Clean Images	56	ConvNeXt-B
Domain Adaptation	VizWiz-Classification	Accuracy - Corrupted Images	46.9	ConvNeXt-B
Domain Adaptation	ImageNet-Sketch	Top-1 accuracy	55	ConvNeXt-XL (Im21k, 384)
Semantic Segmentation	ImageNet-S	mIoU (test)	48.8	ConvNext-Tiny (P4, 224x224, SUP)
Semantic Segmentation	ImageNet-S	mIoU (val)	48.7	ConvNext-Tiny (P4, 224x224, SUP)
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	3335	ConvNeXt-XL++
Semantic Segmentation	ADE20K	Params (M)	391	ConvNeXt-XL++
Semantic Segmentation	ADE20K	Validation mIoU	54	ConvNeXt-XL++
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	2458	ConvNeXt-L++
Semantic Segmentation	ADE20K	Params (M)	235	ConvNeXt-L++
Semantic Segmentation	ADE20K	Validation mIoU	53.7	ConvNeXt-L++
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	1828	ConvNeXt-B++
Semantic Segmentation	ADE20K	Params (M)	122	ConvNeXt-B++
Semantic Segmentation	ADE20K	Validation mIoU	53.1	ConvNeXt-B++
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	1170	ConvNeXt-B
Semantic Segmentation	ADE20K	Params (M)	122	ConvNeXt-B
Semantic Segmentation	ADE20K	Validation mIoU	49.9	ConvNeXt-B
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	1027	ConvNeXt-S
Semantic Segmentation	ADE20K	Params (M)	82	ConvNeXt-S
Semantic Segmentation	ADE20K	Validation mIoU	49.6	ConvNeXt-S
Semantic Segmentation	ADE20K	GFLOPs (512 x 512)	939	ConvNeXt-T
Semantic Segmentation	ADE20K	Params (M)	60	ConvNeXt-T
Semantic Segmentation	ADE20K	Validation mIoU	46.7	ConvNeXt-T
Object Detection	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
Object Detection	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)
Image Classification	ImageNet	GFLOPs	179	ConvNeXt-XL (ImageNet-22k)
Image Classification	ImageNet	GFLOPs	101	ConvNeXt-L (384 res)
Image Classification	ImageNet	GFLOPs	4.5	ConvNeXt-T
3D	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
3D	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)
2D Classification	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
2D Classification	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)
2D Object Detection	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
2D Object Detection	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)
Domain Generalization	ImageNet-R	Top-1 Error Rate	31.8	ConvNeXt-XL (Im21k, 384)
Domain Generalization	ImageNet-A	Top-1 accuracy %	69.3	ConvNeXt-XL (Im21k, 384)
Domain Generalization	ImageNet-C	mean Corruption Error (mCE)	38.8	ConvNeXt-XL (Im21k) (augmentation overlap with ImageNet-C)
Domain Generalization	VizWiz-Classification	Accuracy - All Images	53.5	ConvNeXt-B
Domain Generalization	VizWiz-Classification	Accuracy - Clean Images	56	ConvNeXt-B
Domain Generalization	VizWiz-Classification	Accuracy - Corrupted Images	46.9	ConvNeXt-B
Domain Generalization	ImageNet-Sketch	Top-1 accuracy	55	ConvNeXt-XL (Im21k, 384)
10-shot image generation	ImageNet-S	mIoU (test)	48.8	ConvNext-Tiny (P4, 224x224, SUP)
10-shot image generation	ImageNet-S	mIoU (val)	48.7	ConvNext-Tiny (P4, 224x224, SUP)
10-shot image generation	ADE20K	GFLOPs (512 x 512)	3335	ConvNeXt-XL++
10-shot image generation	ADE20K	Params (M)	391	ConvNeXt-XL++
10-shot image generation	ADE20K	Validation mIoU	54	ConvNeXt-XL++
10-shot image generation	ADE20K	GFLOPs (512 x 512)	2458	ConvNeXt-L++
10-shot image generation	ADE20K	Params (M)	235	ConvNeXt-L++
10-shot image generation	ADE20K	Validation mIoU	53.7	ConvNeXt-L++
10-shot image generation	ADE20K	GFLOPs (512 x 512)	1828	ConvNeXt-B++
10-shot image generation	ADE20K	Params (M)	122	ConvNeXt-B++
10-shot image generation	ADE20K	Validation mIoU	53.1	ConvNeXt-B++
10-shot image generation	ADE20K	GFLOPs (512 x 512)	1170	ConvNeXt-B
10-shot image generation	ADE20K	Params (M)	122	ConvNeXt-B
10-shot image generation	ADE20K	Validation mIoU	49.9	ConvNeXt-B
10-shot image generation	ADE20K	GFLOPs (512 x 512)	1027	ConvNeXt-S
10-shot image generation	ADE20K	Params (M)	82	ConvNeXt-S
10-shot image generation	ADE20K	Validation mIoU	49.6	ConvNeXt-S
10-shot image generation	ADE20K	GFLOPs (512 x 512)	939	ConvNeXt-T
10-shot image generation	ADE20K	Params (M)	60	ConvNeXt-T
10-shot image generation	ADE20K	Validation mIoU	46.7	ConvNeXt-T
16k	COCO-O	Average mAP	37.5	ConvNeXt-XL (Cascade Mask R-CNN)
16k	COCO-O	Effective Robustness	12.68	ConvNeXt-XL (Cascade Mask R-CNN)

A ConvNet for the 2020s

Abstract

Results

Related Papers

A ConvNet for the 2020s

Abstract

Results

Related Papers