When Vision Transformers Outperform ResNets without Pre-training or Strong Data Augmentations

Xiangning Chen, Cho-Jui Hsieh, Boqing Gong

2021-06-03ICLR 2022 4Image Classification Domain Generalization Transfer Learning Fine-Grained Image Classification

Abstract

Vision Transformers (ViTs) and MLPs signal further efforts on replacing hand-wired features or inductive biases with general-purpose neural architectures. Existing works empower the models by massive data, such as large-scale pre-training and/or repeated strong data augmentations, and still report optimization-related problems (e.g., sensitivity to initialization and learning rates). Hence, this paper investigates ViTs and MLP-Mixers from the lens of loss geometry, intending to improve the models' data efficiency at training and generalization at inference. Visualization and Hessian reveal extremely sharp local minima of converged models. By promoting smoothness with a recently proposed sharpness-aware optimizer, we substantially improve the accuracy and robustness of ViTs and MLP-Mixers on various tasks spanning supervised, adversarial, contrastive, and transfer learning (e.g., +5.3\% and +11.0\% top-1 accuracy on ImageNet for ViT-B/16 and Mixer-B/16, respectively, with the simple Inception-style preprocessing). We show that the improved smoothness attributes to sparser active neurons in the first few layers. The resultant ViTs outperform ResNets of similar size and throughput when trained from scratch on ImageNet without large-scale pre-training or strong data augmentations. Model checkpoints are available at \url{https://github.com/google-research/vision_transformer}.

Results

Task	Dataset	Metric	Value	Model
Domain Adaptation	ImageNet-R	Top-1 Error Rate	71.9	ResNet-152x2-SAM
Domain Adaptation	ImageNet-R	Top-1 Error Rate	73.6	ViT-B/16-SAM
Domain Adaptation	ImageNet-R	Top-1 Error Rate	76.5	Mixer-B/8-SAM
Domain Adaptation	ImageNet-C	Top 1 Accuracy	56.5	ViT-B/16-SAM
Domain Adaptation	ImageNet-C	Top 1 Accuracy	55	ResNet-152x2-SAM
Domain Adaptation	ImageNet-C	Top 1 Accuracy	48.9	Mixer-B/8-SAM
Image Classification	ImageNet V2	Top 1 Accuracy	69.6	ResNet-152x2-SAM
Image Classification	ImageNet V2	Top 1 Accuracy	67.5	ViT-B/16-SAM
Image Classification	ImageNet V2	Top 1 Accuracy	65.5	Mixer-B/8-SAM
Image Classification	CIFAR-10	Percentage correct	98.6	ViT-B/16- SAM
Image Classification	CIFAR-10	Percentage correct	98.2	ResNet-152-SAM
Image Classification	CIFAR-10	Percentage correct	98.2	ViT-S/16- SAM
Image Classification	CIFAR-10	Percentage correct	97.8	Mixer-B/16- SAM
Image Classification	CIFAR-10	Percentage correct	97.4	ResNet-50-SAM
Image Classification	CIFAR-10	Percentage correct	96.1	Mixer-S/16- SAM
Image Classification	Flowers-102	Accuracy	91.8	ViT-B/16- SAM
Image Classification	Flowers-102	Accuracy	91.5	ViT-S/16- SAM
Image Classification	Flowers-102	Accuracy	91.1	ResNet-152-SAM
Image Classification	Flowers-102	Accuracy	90	ResNet-50-SAM
Image Classification	Flowers-102	Accuracy	90	Mixer-B/16- SAM
Image Classification	Flowers-102	Accuracy	87.9	Mixer-S/16- SAM
Image Classification	CIFAR-100	Percentage correct	89.1	ViT-B/16- SAM
Image Classification	CIFAR-100	Percentage correct	87.6	ViT-S/16- SAM
Image Classification	CIFAR-100	Percentage correct	86.4	Mixer-B/16- SAM
Image Classification	CIFAR-100	Percentage correct	85.2	ResNet-50-SAM
Image Classification	CIFAR-100	Percentage correct	82.4	Mixer-S/16- SAM
Image Classification	Oxford-IIIT Pets	Accuracy	93.3	ResNet-152-SAM
Image Classification	Oxford-IIIT Pets	Accuracy	93.1	ViT-B/16- SAM
Image Classification	Oxford-IIIT Pets	Accuracy	92.9	ViT-S/16- SAM
Image Classification	Oxford-IIIT Pets	Accuracy	92.5	Mixer-B/16- SAM
Image Classification	Oxford-IIIT Pets	Accuracy	91.6	ResNet-50-SAM
Image Classification	Oxford-IIIT Pets	Accuracy	88.7	Mixer-S/16- SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	93.3	ResNet-152-SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	93.1	ViT-B/16- SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	92.9	ViT-S/16- SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	92.5	Mixer-B/16- SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	91.6	ResNet-50-SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	88.7	Mixer-S/16- SAM
Domain Generalization	ImageNet-R	Top-1 Error Rate	71.9	ResNet-152x2-SAM
Domain Generalization	ImageNet-R	Top-1 Error Rate	73.6	ViT-B/16-SAM
Domain Generalization	ImageNet-R	Top-1 Error Rate	76.5	Mixer-B/8-SAM
Domain Generalization	ImageNet-C	Top 1 Accuracy	56.5	ViT-B/16-SAM
Domain Generalization	ImageNet-C	Top 1 Accuracy	55	ResNet-152x2-SAM
Domain Generalization	ImageNet-C	Top 1 Accuracy	48.9	Mixer-B/8-SAM

Abstract

Results

Task	Dataset	Metric	Value	Model
Domain Adaptation	ImageNet-R	Top-1 Error Rate	71.9	ResNet-152x2-SAM
Domain Adaptation	ImageNet-R	Top-1 Error Rate	73.6	ViT-B/16-SAM
Domain Adaptation	ImageNet-R	Top-1 Error Rate	76.5	Mixer-B/8-SAM
Domain Adaptation	ImageNet-C	Top 1 Accuracy	56.5	ViT-B/16-SAM
Domain Adaptation	ImageNet-C	Top 1 Accuracy	55	ResNet-152x2-SAM
Domain Adaptation	ImageNet-C	Top 1 Accuracy	48.9	Mixer-B/8-SAM
Image Classification	ImageNet V2	Top 1 Accuracy	69.6	ResNet-152x2-SAM
Image Classification	ImageNet V2	Top 1 Accuracy	67.5	ViT-B/16-SAM
Image Classification	ImageNet V2	Top 1 Accuracy	65.5	Mixer-B/8-SAM
Image Classification	CIFAR-10	Percentage correct	98.6	ViT-B/16- SAM
Image Classification	CIFAR-10	Percentage correct	98.2	ResNet-152-SAM
Image Classification	CIFAR-10	Percentage correct	98.2	ViT-S/16- SAM
Image Classification	CIFAR-10	Percentage correct	97.8	Mixer-B/16- SAM
Image Classification	CIFAR-10	Percentage correct	97.4	ResNet-50-SAM
Image Classification	CIFAR-10	Percentage correct	96.1	Mixer-S/16- SAM
Image Classification	Flowers-102	Accuracy	91.8	ViT-B/16- SAM
Image Classification	Flowers-102	Accuracy	91.5	ViT-S/16- SAM
Image Classification	Flowers-102	Accuracy	91.1	ResNet-152-SAM
Image Classification	Flowers-102	Accuracy	90	ResNet-50-SAM
Image Classification	Flowers-102	Accuracy	90	Mixer-B/16- SAM
Image Classification	Flowers-102	Accuracy	87.9	Mixer-S/16- SAM
Image Classification	CIFAR-100	Percentage correct	89.1	ViT-B/16- SAM
Image Classification	CIFAR-100	Percentage correct	87.6	ViT-S/16- SAM
Image Classification	CIFAR-100	Percentage correct	86.4	Mixer-B/16- SAM
Image Classification	CIFAR-100	Percentage correct	85.2	ResNet-50-SAM
Image Classification	CIFAR-100	Percentage correct	82.4	Mixer-S/16- SAM
Image Classification	Oxford-IIIT Pets	Accuracy	93.3	ResNet-152-SAM
Image Classification	Oxford-IIIT Pets	Accuracy	93.1	ViT-B/16- SAM
Image Classification	Oxford-IIIT Pets	Accuracy	92.9	ViT-S/16- SAM
Image Classification	Oxford-IIIT Pets	Accuracy	92.5	Mixer-B/16- SAM
Image Classification	Oxford-IIIT Pets	Accuracy	91.6	ResNet-50-SAM
Image Classification	Oxford-IIIT Pets	Accuracy	88.7	Mixer-S/16- SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	93.3	ResNet-152-SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	93.1	ViT-B/16- SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	92.9	ViT-S/16- SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	92.5	Mixer-B/16- SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	91.6	ResNet-50-SAM
Fine-Grained Image Classification	Oxford-IIIT Pets	Accuracy	88.7	Mixer-S/16- SAM
Domain Generalization	ImageNet-R	Top-1 Error Rate	71.9	ResNet-152x2-SAM
Domain Generalization	ImageNet-R	Top-1 Error Rate	73.6	ViT-B/16-SAM
Domain Generalization	ImageNet-R	Top-1 Error Rate	76.5	Mixer-B/8-SAM
Domain Generalization	ImageNet-C	Top 1 Accuracy	56.5	ViT-B/16-SAM
Domain Generalization	ImageNet-C	Top 1 Accuracy	55	ResNet-152x2-SAM
Domain Generalization	ImageNet-C	Top 1 Accuracy	48.9	Mixer-B/8-SAM

When Vision Transformers Outperform ResNets without Pre-training or Strong Data Augmentations

Abstract

Results

Related Papers

When Vision Transformers Outperform ResNets without Pre-training or Strong Data Augmentations

Abstract

Results

Related Papers