A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark

Xiaohua Zhai, Joan Puigcerver, Alexander Kolesnikov, Pierre Ruyssen, Carlos Riquelme, Mario Lucic, Josip Djolonga, Andre Susano Pinto, Maxim Neumann, Alexey Dosovitskiy, Lucas Beyer, Olivier Bachem, Michael Tschannen, Marcin Michalski, Olivier Bousquet, Sylvain Gelly, Neil Houlsby

2019-10-01arXiv 2020 2Image Classification Representation Learning

Paper PDF Code(official)Code

Abstract

Representation learning promises to unlock deep learning for the long tail of vision tasks without expensive labelled datasets. Yet, the absence of a unified evaluation for general visual representations hinders progress. Popular protocols are often too constrained (linear classification), limited in diversity (ImageNet, CIFAR, Pascal-VOC), or only weakly related to representation quality (ELBO, reconstruction error). We present the Visual Task Adaptation Benchmark (VTAB), which defines good representations as those that adapt to diverse, unseen tasks with few examples. With VTAB, we conduct a large-scale study of many popular publicly-available representation learning algorithms. We carefully control confounders such as architecture and tuning budget. We address questions like: How effective are ImageNet representations beyond standard natural datasets? How do representations trained via generative and discriminative models compare? To what extent can self-supervision replace labels? And, how close are we to general visual representations?

Results

Task	Dataset	Metric	Value	Model
Image Classification	VTAB-1k	Top-1 Accuracy	72.7	S4L-Exemplar-ResNet50-LargeHyperSweep
Image Classification	VTAB-1k	Top-1 Accuracy	71.5	S4L-Rotation-ResNet50-LargeHyperSweep
Image Classification	VTAB-1k	Top-1 Accuracy	71.2	ImageNet-ResNet50-LargeHyperSweep
Image Classification	VTAB-1k	Top-1 Accuracy	67.5	S4L-Rotation-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	67	S4L-Exemplar-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	65.6	ImageNet-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	64.8	S4L-10%-Rotation-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	63.9	S4L-10%-Exemplar-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	61.6	ImageNet-10%-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	59.5	SelfSup-Rotation-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	59.2	ResNet50-LargeHyperSweep
Image Classification	VTAB-1k	Top-1 Accuracy	59.1	BigBiGAN-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	57.5	SelfSup-Exemplar-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	51.1	SelfSup-Jigsaw-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	50.8	SelfSup-RelativePatchLoc-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	44	Unconditional-BigGAN-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	42.1	ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	37.5	VAE
Image Classification	VTAB-1k	Top-1 Accuracy	37.3	WAE-MMD
Image Classification	VTAB-1k	Top-1 Accuracy	35.3	Conditional-BigGAN
Image Classification	VTAB-1k	Top-1 Accuracy	32	WAE-GAN
Image Classification	VTAB-1k	Top-1 Accuracy	31	WAE-UKL

A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark

Abstract

Results

Task	Dataset	Metric	Value	Model
Image Classification	VTAB-1k	Top-1 Accuracy	72.7	S4L-Exemplar-ResNet50-LargeHyperSweep
Image Classification	VTAB-1k	Top-1 Accuracy	71.5	S4L-Rotation-ResNet50-LargeHyperSweep
Image Classification	VTAB-1k	Top-1 Accuracy	71.2	ImageNet-ResNet50-LargeHyperSweep
Image Classification	VTAB-1k	Top-1 Accuracy	67.5	S4L-Rotation-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	67	S4L-Exemplar-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	65.6	ImageNet-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	64.8	S4L-10%-Rotation-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	63.9	S4L-10%-Exemplar-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	61.6	ImageNet-10%-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	59.5	SelfSup-Rotation-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	59.2	ResNet50-LargeHyperSweep
Image Classification	VTAB-1k	Top-1 Accuracy	59.1	BigBiGAN-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	57.5	SelfSup-Exemplar-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	51.1	SelfSup-Jigsaw-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	50.8	SelfSup-RelativePatchLoc-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	44	Unconditional-BigGAN-ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	42.1	ResNet50
Image Classification	VTAB-1k	Top-1 Accuracy	37.5	VAE
Image Classification	VTAB-1k	Top-1 Accuracy	37.3	WAE-MMD
Image Classification	VTAB-1k	Top-1 Accuracy	35.3	Conditional-BigGAN
Image Classification	VTAB-1k	Top-1 Accuracy	32	WAE-GAN
Image Classification	VTAB-1k	Top-1 Accuracy	31	WAE-UKL

A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark

Abstract

Results

Related Papers

A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark

Abstract

Results

Related Papers