SERE: Exploring Feature Self-relation for Self-supervised Transformer

Zhong-Yu Li, ShangHua Gao, Ming-Ming Cheng

2022-06-10Self-Supervised Learning Unsupervised Semantic Segmentation Semantic Segmentation

Abstract

Learning representations with self-supervision for convolutional networks (CNN) has been validated to be effective for vision tasks. As an alternative to CNN, vision transformers (ViT) have strong representation ability with spatial self-attention and channel-level feedforward networks. Recent works reveal that self-supervised learning helps unleash the great potential of ViT. Still, most works follow self-supervised strategies designed for CNN, e.g., instance-level discrimination of samples, but they ignore the properties of ViT. We observe that relational modeling on spatial and channel dimensions distinguishes ViT from other networks. To enforce this property, we explore the feature SElf-RElation (SERE) for training self-supervised ViT. Specifically, instead of conducting self-supervised learning solely on feature embeddings from multiple views, we utilize the feature self-relations, i.e., spatial/channel self-relations, for self-supervised learning. Self-relation based learning further enhances the relation modeling ability of ViT, resulting in stronger representations that stably improve performance on multiple downstream tasks. Our source code is publicly available at: https://github.com/MCG-NKU/SERE.

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	ImageNet-S	mIoU (test)	63.3	SERE (ViT-B/16, 100ep, 224x224, SSL+FT)
Semantic Segmentation	ImageNet-S	mIoU (val)	63	SERE (ViT-B/16, 100ep, 224x224, SSL+FT)
Semantic Segmentation	ImageNet-S	mIoU (test)	59	SERE (ViT-S/16, 100ep, 224x224, SSL+FT, mmseg)
Semantic Segmentation	ImageNet-S	mIoU (val)	59.4	SERE (ViT-S/16, 100ep, 224x224, SSL+FT, mmseg)
Semantic Segmentation	ImageNet-S	mIoU (test)	57.8	SERE (ViT-S/16, 100ep, 224x224, SSL+FT)
Semantic Segmentation	ImageNet-S	mIoU (val)	58.9	SERE (ViT-S/16, 100ep, 224x224, SSL+FT)
Semantic Segmentation	ImageNet-S	mIoU (test)	48.2	SERE (ViT-B/16, 100ep, 224x224, SSL)
Semantic Segmentation	ImageNet-S	mIoU (val)	48.6	SERE (ViT-B/16, 100ep, 224x224, SSL)
Semantic Segmentation	ImageNet-S	mIoU (test)	40.5	SERE (ViT-S/16, 100ep, 224x224, SSL, mmseg)
Semantic Segmentation	ImageNet-S	mIoU (val)	41	SERE (ViT-S/16, 100ep, 224x224, SSL, mmseg)
Semantic Segmentation	ImageNet-S	mIoU (test)	40.2	SERE (ViT-S/16, 100ep, 224x224, SSL)
Semantic Segmentation	ImageNet-S	mIoU (val)	41	SERE (ViT-S/16, 100ep, 224x224, SSL)
10-shot image generation	ImageNet-S	mIoU (test)	63.3	SERE (ViT-B/16, 100ep, 224x224, SSL+FT)
10-shot image generation	ImageNet-S	mIoU (val)	63	SERE (ViT-B/16, 100ep, 224x224, SSL+FT)
10-shot image generation	ImageNet-S	mIoU (test)	59	SERE (ViT-S/16, 100ep, 224x224, SSL+FT, mmseg)
10-shot image generation	ImageNet-S	mIoU (val)	59.4	SERE (ViT-S/16, 100ep, 224x224, SSL+FT, mmseg)
10-shot image generation	ImageNet-S	mIoU (test)	57.8	SERE (ViT-S/16, 100ep, 224x224, SSL+FT)
10-shot image generation	ImageNet-S	mIoU (val)	58.9	SERE (ViT-S/16, 100ep, 224x224, SSL+FT)
10-shot image generation	ImageNet-S	mIoU (test)	48.2	SERE (ViT-B/16, 100ep, 224x224, SSL)
10-shot image generation	ImageNet-S	mIoU (val)	48.6	SERE (ViT-B/16, 100ep, 224x224, SSL)
10-shot image generation	ImageNet-S	mIoU (test)	40.5	SERE (ViT-S/16, 100ep, 224x224, SSL, mmseg)
10-shot image generation	ImageNet-S	mIoU (val)	41	SERE (ViT-S/16, 100ep, 224x224, SSL, mmseg)
10-shot image generation	ImageNet-S	mIoU (test)	40.2	SERE (ViT-S/16, 100ep, 224x224, SSL)
10-shot image generation	ImageNet-S	mIoU (val)	41	SERE (ViT-S/16, 100ep, 224x224, SSL)

Abstract

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	ImageNet-S	mIoU (test)	63.3	SERE (ViT-B/16, 100ep, 224x224, SSL+FT)
Semantic Segmentation	ImageNet-S	mIoU (val)	63	SERE (ViT-B/16, 100ep, 224x224, SSL+FT)
Semantic Segmentation	ImageNet-S	mIoU (test)	59	SERE (ViT-S/16, 100ep, 224x224, SSL+FT, mmseg)
Semantic Segmentation	ImageNet-S	mIoU (val)	59.4	SERE (ViT-S/16, 100ep, 224x224, SSL+FT, mmseg)
Semantic Segmentation	ImageNet-S	mIoU (test)	57.8	SERE (ViT-S/16, 100ep, 224x224, SSL+FT)
Semantic Segmentation	ImageNet-S	mIoU (val)	58.9	SERE (ViT-S/16, 100ep, 224x224, SSL+FT)
Semantic Segmentation	ImageNet-S	mIoU (test)	48.2	SERE (ViT-B/16, 100ep, 224x224, SSL)
Semantic Segmentation	ImageNet-S	mIoU (val)	48.6	SERE (ViT-B/16, 100ep, 224x224, SSL)
Semantic Segmentation	ImageNet-S	mIoU (test)	40.5	SERE (ViT-S/16, 100ep, 224x224, SSL, mmseg)
Semantic Segmentation	ImageNet-S	mIoU (val)	41	SERE (ViT-S/16, 100ep, 224x224, SSL, mmseg)
Semantic Segmentation	ImageNet-S	mIoU (test)	40.2	SERE (ViT-S/16, 100ep, 224x224, SSL)
Semantic Segmentation	ImageNet-S	mIoU (val)	41	SERE (ViT-S/16, 100ep, 224x224, SSL)
10-shot image generation	ImageNet-S	mIoU (test)	63.3	SERE (ViT-B/16, 100ep, 224x224, SSL+FT)
10-shot image generation	ImageNet-S	mIoU (val)	63	SERE (ViT-B/16, 100ep, 224x224, SSL+FT)
10-shot image generation	ImageNet-S	mIoU (test)	59	SERE (ViT-S/16, 100ep, 224x224, SSL+FT, mmseg)
10-shot image generation	ImageNet-S	mIoU (val)	59.4	SERE (ViT-S/16, 100ep, 224x224, SSL+FT, mmseg)
10-shot image generation	ImageNet-S	mIoU (test)	57.8	SERE (ViT-S/16, 100ep, 224x224, SSL+FT)
10-shot image generation	ImageNet-S	mIoU (val)	58.9	SERE (ViT-S/16, 100ep, 224x224, SSL+FT)
10-shot image generation	ImageNet-S	mIoU (test)	48.2	SERE (ViT-B/16, 100ep, 224x224, SSL)
10-shot image generation	ImageNet-S	mIoU (val)	48.6	SERE (ViT-B/16, 100ep, 224x224, SSL)
10-shot image generation	ImageNet-S	mIoU (test)	40.5	SERE (ViT-S/16, 100ep, 224x224, SSL, mmseg)
10-shot image generation	ImageNet-S	mIoU (val)	41	SERE (ViT-S/16, 100ep, 224x224, SSL, mmseg)
10-shot image generation	ImageNet-S	mIoU (test)	40.2	SERE (ViT-S/16, 100ep, 224x224, SSL)
10-shot image generation	ImageNet-S	mIoU (val)	41	SERE (ViT-S/16, 100ep, 224x224, SSL)

SERE: Exploring Feature Self-relation for Self-supervised Transformer

Abstract

Results

Related Papers

SERE: Exploring Feature Self-relation for Self-supervised Transformer

Abstract

Results

Related Papers