ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness

Robert Geirhos, Patricia Rubisch, Claudio Michaelis, Matthias Bethge, Felix A. Wichmann, Wieland Brendel

2018-11-29ICLR 2019 5Image Classification Domain Generalization Object Recognition object-detection Out-of-Distribution Generalization Object Detection

Paper PDF Code Code Code Code(official)Code Code Code

Abstract

Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNet-trained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on "Stylized-ImageNet", a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.

Results

Task	Dataset	Metric	Value	Model
Domain Adaptation	ImageNet-R	Top-1 Error Rate	58.5	Stylized ImageNet (ResNet-50)
Domain Adaptation	ImageNet-A	Top-1 accuracy %	2.3	Stylized ImageNet (ResNet-50)
Domain Adaptation	ImageNet-C	mean Corruption Error (mCE)	69.3	Stylized ImageNet (ResNet-50)
Domain Adaptation	VizWiz-Classification	Accuracy - All Images	39.2	ResNet-50 (SIN_IN_IN)
Domain Adaptation	VizWiz-Classification	Accuracy - Clean Images	44.6	ResNet-50 (SIN_IN_IN)
Domain Adaptation	VizWiz-Classification	Accuracy - Corrupted Images	32.4	ResNet-50 (SIN_IN_IN)
Domain Adaptation	VizWiz-Classification	Accuracy - All Images	38.2	ResNet-50 (SIN_IN)
Domain Adaptation	VizWiz-Classification	Accuracy - Clean Images	42.7	ResNet-50 (SIN_IN)
Domain Adaptation	VizWiz-Classification	Accuracy - Corrupted Images	32.5	ResNet-50 (SIN_IN)
Domain Adaptation	VizWiz-Classification	Accuracy - All Images	25.3	ResNet-50 (SIN)
Domain Adaptation	VizWiz-Classification	Accuracy - Clean Images	30	ResNet-50 (SIN)
Domain Adaptation	VizWiz-Classification	Accuracy - Corrupted Images	20.4	ResNet-50 (SIN)
Object Recognition	shape bias	shape bias	42.9	AlexNet
Object Recognition	shape bias	shape bias	31.2	GoogLeNet
Object Recognition	shape bias	shape bias	22.1	ResNet-50
Object Recognition	shape bias	shape bias	17.2	VGG-16
Domain Generalization	ImageNet-R	Top-1 Error Rate	58.5	Stylized ImageNet (ResNet-50)
Domain Generalization	ImageNet-A	Top-1 accuracy %	2.3	Stylized ImageNet (ResNet-50)
Domain Generalization	ImageNet-C	mean Corruption Error (mCE)	69.3	Stylized ImageNet (ResNet-50)
Domain Generalization	VizWiz-Classification	Accuracy - All Images	39.2	ResNet-50 (SIN_IN_IN)
Domain Generalization	VizWiz-Classification	Accuracy - Clean Images	44.6	ResNet-50 (SIN_IN_IN)
Domain Generalization	VizWiz-Classification	Accuracy - Corrupted Images	32.4	ResNet-50 (SIN_IN_IN)
Domain Generalization	VizWiz-Classification	Accuracy - All Images	38.2	ResNet-50 (SIN_IN)
Domain Generalization	VizWiz-Classification	Accuracy - Clean Images	42.7	ResNet-50 (SIN_IN)
Domain Generalization	VizWiz-Classification	Accuracy - Corrupted Images	32.5	ResNet-50 (SIN_IN)
Domain Generalization	VizWiz-Classification	Accuracy - All Images	25.3	ResNet-50 (SIN)
Domain Generalization	VizWiz-Classification	Accuracy - Clean Images	30	ResNet-50 (SIN)
Domain Generalization	VizWiz-Classification	Accuracy - Corrupted Images	20.4	ResNet-50 (SIN)

ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness

Abstract

Results

Related Papers

ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness

Abstract

Results

Related Papers