MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining

Di Wang, Jing Zhang, Minqiang Xu, Lin Liu, Dongsheng Wang, Erzhong Gao, Chengxi Han, HaoNan Guo, Bo Du, DaCheng Tao, Liangpei Zhang

2024-03-20Scene Classification Image Classification Change detection for remote sensing images Object Detection In Aerial Images Self-Supervised Learning Segmentation Semantic Segmentation Building change detection for remote sensing images Instance Segmentation Oriented Object Detection Aerial Scene Classification Change Detection object-detection Object Detection

Paper PDF Code(official)Code

Abstract

Foundation models have reshaped the landscape of Remote Sensing (RS) by enhancing various image interpretation tasks. Pretraining is an active research topic, encompassing supervised and self-supervised learning methods to initialize model weights effectively. However, transferring the pretrained models to downstream tasks may encounter task discrepancy due to their formulation of pretraining as image classification or object discrimination tasks. In this study, we explore the Multi-Task Pretraining (MTP) paradigm for RS foundation models to address this issue. Using a shared encoder and task-specific decoder architecture, we conduct multi-task supervised pretraining on the SAMRS dataset, encompassing semantic segmentation, instance segmentation, and rotated object detection. MTP supports both convolutional neural networks and vision transformer foundation models with over 300 million parameters. The pretrained models are finetuned on various RS downstream tasks, such as scene classification, horizontal and rotated object detection, semantic segmentation, and change detection. Extensive experiments across 14 datasets demonstrate the superiority of our models over existing ones of similar size and their competitive performance compared to larger state-of-the-art models, thus validating the effectiveness of MTP.

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	LoveDA	Category mIoU	54.17	MAE+MTP(ViT-L+RVSA)
Semantic Segmentation	LoveDA	Category mIoU	54.17	IMP+MTP(InternImage-XL)
Semantic Segmentation	LoveDA	Category mIoU	52.39	MAE+MTP(ViT-B+RVSA)
Semantic Segmentation	SpaceNet 1	Mean IoU	79.69	MAE+MTP(ViT-L)
Semantic Segmentation	SpaceNet 1	Mean IoU	79.63	MAE+MTP(ViT-B+RVSA)
Semantic Segmentation	SpaceNet 1	Mean IoU	79.54	MAE+MTP(ViT-L+RVSA)
Semantic Segmentation	SpaceNet 1	Mean IoU	79.16	IMP+MTP(InternImage-XL)
Remote Sensing	CDD Dataset (season-varying)	F1-Score	0.9833	IMP+MTP(InternImage-XL)
Remote Sensing	CDD Dataset (season-varying)	F1-Score	0.9798	MAE+MTP(ViT-L+RVSA)
Remote Sensing	CDD Dataset (season-varying)	F1-Score	0.9787	MAE+MTP(ViT-B+RVSA)
Remote Sensing	LEVIR-CD	F1	92.67	MAE+MTP(ViT-L+RVSA)
Remote Sensing	LEVIR-CD	Params(M)	305	MAE+MTP(ViT-L+RVSA)
Remote Sensing	LEVIR-CD	F1	92.54	IMP+MTP(InternImage-XL)
Remote Sensing	LEVIR-CD	Params(M)	335	IMP+MTP(InternImage-XL)
Remote Sensing	LEVIR-CD	F1	92.22	MAE+MTP(ViT-B+RVSA)
Remote Sensing	LEVIR-CD	Params(M)	86	MAE+MTP(ViT-B+RVSA)
Object Detection	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
Object Detection	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
Object Detection	DIOR	AP50	78	IMP+MTP(InternImage-XL)
Object Detection	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
Object Detection	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
Object Detection	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
Object Detection	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
Object Detection	xView	AP50	18.2	IMP+MTP(InternImage-XL)
Object Detection	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
Object Detection	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
Object Detection	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
Object Detection	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)
Image Classification	EuroSAT	Accuracy (%)	99.24	IMP+MTP(IntenImage-XL)
Image Classification	EuroSAT	Accuracy (%)	98.78	MAE+MTP(ViT-L+RVSA)
Image Classification	EuroSAT	Accuracy (%)	98.76	MAE+MTP(ViT-B+RVSA)
3D	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
3D	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
3D	DIOR	AP50	78	IMP+MTP(InternImage-XL)
3D	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
3D	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
3D	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
3D	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
3D	xView	AP50	18.2	IMP+MTP(InternImage-XL)
3D	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
3D	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
3D	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
3D	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)
2D Classification	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
2D Classification	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
2D Classification	DIOR	AP50	78	IMP+MTP(InternImage-XL)
2D Classification	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
2D Classification	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
2D Classification	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
2D Classification	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
2D Classification	xView	AP50	18.2	IMP+MTP(InternImage-XL)
2D Classification	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
2D Classification	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
2D Classification	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
2D Classification	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)
Change Detection	GVLM	F1	89.9	MTP (ViT-B + RVSA)
Change Detection	CLCD	F1	80.3	MTP (ViT-B + RVSA)
Change Detection	EGY-BCD	F1	85.9	MTP (VIT-B+RVSA)
Change Detection	WHU Building Dataset	F1-score	0.9559	IMP+MTP(InternImage-XL)
Change Detection	WHU Building Dataset	F1-score	0.9475	MAE+MTP(ViT-L+RVSA)
Change Detection	WHU Building Dataset	F1-score	0.9432	MAE+MTP(ViT-B+RVSA)
Change Detection	LEVIR-CD	F1	92.67	MAE+MTP(ViT-L+RVSA)
Change Detection	LEVIR-CD	F1	92.54	IMP+MTP(InternImage-XL)
Change Detection	LEVIR-CD	F1	92.22	MAE+MTP(ViT-B+RVSA)
Change Detection	OSCD - 3ch	F1	55.92	MAE+MTP(ViT-L+RVSA)
Change Detection	OSCD - 3ch	F1	55.61	IMP+MTP(InternImage-XL)
Change Detection	OSCD - 3ch	F1	53.36	MAE+MTP(ViT-B+RVSA)
Change Detection	CDD Dataset (season-varying)	F1-Score	98.33	IMP+MTP(InternImage-XL)
Change Detection	CDD Dataset (season-varying)	F1-Score	97.98	MAE+MTP(ViT-L+RVSA)
Change Detection	CDD Dataset (season-varying)	F1-Score	97.87	MAE+MTP(ViT-B+RVSA)
2D Object Detection	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
2D Object Detection	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
2D Object Detection	DIOR	AP50	78	IMP+MTP(InternImage-XL)
2D Object Detection	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
2D Object Detection	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
2D Object Detection	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
2D Object Detection	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
2D Object Detection	xView	AP50	18.2	IMP+MTP(InternImage-XL)
2D Object Detection	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
2D Object Detection	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
2D Object Detection	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
2D Object Detection	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)
10-shot image generation	LoveDA	Category mIoU	54.17	MAE+MTP(ViT-L+RVSA)
10-shot image generation	LoveDA	Category mIoU	54.17	IMP+MTP(InternImage-XL)
10-shot image generation	LoveDA	Category mIoU	52.39	MAE+MTP(ViT-B+RVSA)
10-shot image generation	SpaceNet 1	Mean IoU	79.69	MAE+MTP(ViT-L)
10-shot image generation	SpaceNet 1	Mean IoU	79.63	MAE+MTP(ViT-B+RVSA)
10-shot image generation	SpaceNet 1	Mean IoU	79.54	MAE+MTP(ViT-L+RVSA)
10-shot image generation	SpaceNet 1	Mean IoU	79.16	IMP+MTP(InternImage-XL)
16k	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
16k	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
16k	DIOR	AP50	78	IMP+MTP(InternImage-XL)
16k	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
16k	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
16k	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
16k	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
16k	xView	AP50	18.2	IMP+MTP(InternImage-XL)
16k	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
16k	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
16k	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
16k	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)

Abstract

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	LoveDA	Category mIoU	54.17	MAE+MTP(ViT-L+RVSA)
Semantic Segmentation	LoveDA	Category mIoU	54.17	IMP+MTP(InternImage-XL)
Semantic Segmentation	LoveDA	Category mIoU	52.39	MAE+MTP(ViT-B+RVSA)
Semantic Segmentation	SpaceNet 1	Mean IoU	79.69	MAE+MTP(ViT-L)
Semantic Segmentation	SpaceNet 1	Mean IoU	79.63	MAE+MTP(ViT-B+RVSA)
Semantic Segmentation	SpaceNet 1	Mean IoU	79.54	MAE+MTP(ViT-L+RVSA)
Semantic Segmentation	SpaceNet 1	Mean IoU	79.16	IMP+MTP(InternImage-XL)
Remote Sensing	CDD Dataset (season-varying)	F1-Score	0.9833	IMP+MTP(InternImage-XL)
Remote Sensing	CDD Dataset (season-varying)	F1-Score	0.9798	MAE+MTP(ViT-L+RVSA)
Remote Sensing	CDD Dataset (season-varying)	F1-Score	0.9787	MAE+MTP(ViT-B+RVSA)
Remote Sensing	LEVIR-CD	F1	92.67	MAE+MTP(ViT-L+RVSA)
Remote Sensing	LEVIR-CD	Params(M)	305	MAE+MTP(ViT-L+RVSA)
Remote Sensing	LEVIR-CD	F1	92.54	IMP+MTP(InternImage-XL)
Remote Sensing	LEVIR-CD	Params(M)	335	IMP+MTP(InternImage-XL)
Remote Sensing	LEVIR-CD	F1	92.22	MAE+MTP(ViT-B+RVSA)
Remote Sensing	LEVIR-CD	Params(M)	86	MAE+MTP(ViT-B+RVSA)
Object Detection	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
Object Detection	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
Object Detection	DIOR	AP50	78	IMP+MTP(InternImage-XL)
Object Detection	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
Object Detection	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
Object Detection	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
Object Detection	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
Object Detection	xView	AP50	18.2	IMP+MTP(InternImage-XL)
Object Detection	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
Object Detection	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
Object Detection	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
Object Detection	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)
Image Classification	EuroSAT	Accuracy (%)	99.24	IMP+MTP(IntenImage-XL)
Image Classification	EuroSAT	Accuracy (%)	98.78	MAE+MTP(ViT-L+RVSA)
Image Classification	EuroSAT	Accuracy (%)	98.76	MAE+MTP(ViT-B+RVSA)
3D	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
3D	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
3D	DIOR	AP50	78	IMP+MTP(InternImage-XL)
3D	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
3D	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
3D	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
3D	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
3D	xView	AP50	18.2	IMP+MTP(InternImage-XL)
3D	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
3D	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
3D	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
3D	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)
2D Classification	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
2D Classification	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
2D Classification	DIOR	AP50	78	IMP+MTP(InternImage-XL)
2D Classification	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
2D Classification	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
2D Classification	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
2D Classification	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
2D Classification	xView	AP50	18.2	IMP+MTP(InternImage-XL)
2D Classification	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
2D Classification	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
2D Classification	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
2D Classification	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)
Change Detection	GVLM	F1	89.9	MTP (ViT-B + RVSA)
Change Detection	CLCD	F1	80.3	MTP (ViT-B + RVSA)
Change Detection	EGY-BCD	F1	85.9	MTP (VIT-B+RVSA)
Change Detection	WHU Building Dataset	F1-score	0.9559	IMP+MTP(InternImage-XL)
Change Detection	WHU Building Dataset	F1-score	0.9475	MAE+MTP(ViT-L+RVSA)
Change Detection	WHU Building Dataset	F1-score	0.9432	MAE+MTP(ViT-B+RVSA)
Change Detection	LEVIR-CD	F1	92.67	MAE+MTP(ViT-L+RVSA)
Change Detection	LEVIR-CD	F1	92.54	IMP+MTP(InternImage-XL)
Change Detection	LEVIR-CD	F1	92.22	MAE+MTP(ViT-B+RVSA)
Change Detection	OSCD - 3ch	F1	55.92	MAE+MTP(ViT-L+RVSA)
Change Detection	OSCD - 3ch	F1	55.61	IMP+MTP(InternImage-XL)
Change Detection	OSCD - 3ch	F1	53.36	MAE+MTP(ViT-B+RVSA)
Change Detection	CDD Dataset (season-varying)	F1-Score	98.33	IMP+MTP(InternImage-XL)
Change Detection	CDD Dataset (season-varying)	F1-Score	97.98	MAE+MTP(ViT-L+RVSA)
Change Detection	CDD Dataset (season-varying)	F1-Score	97.87	MAE+MTP(ViT-B+RVSA)
2D Object Detection	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
2D Object Detection	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
2D Object Detection	DIOR	AP50	78	IMP+MTP(InternImage-XL)
2D Object Detection	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
2D Object Detection	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
2D Object Detection	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
2D Object Detection	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
2D Object Detection	xView	AP50	18.2	IMP+MTP(InternImage-XL)
2D Object Detection	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
2D Object Detection	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
2D Object Detection	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
2D Object Detection	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)
10-shot image generation	LoveDA	Category mIoU	54.17	MAE+MTP(ViT-L+RVSA)
10-shot image generation	LoveDA	Category mIoU	54.17	IMP+MTP(InternImage-XL)
10-shot image generation	LoveDA	Category mIoU	52.39	MAE+MTP(ViT-B+RVSA)
10-shot image generation	SpaceNet 1	Mean IoU	79.69	MAE+MTP(ViT-L)
10-shot image generation	SpaceNet 1	Mean IoU	79.63	MAE+MTP(ViT-B+RVSA)
10-shot image generation	SpaceNet 1	Mean IoU	79.54	MAE+MTP(ViT-L+RVSA)
10-shot image generation	SpaceNet 1	Mean IoU	79.16	IMP+MTP(InternImage-XL)
16k	DIOR	AP50	81.1	MAE+MTP(ViT-L+RVSA)
16k	DIOR	AP50	79.4	MAE+MTP(ViT-B+RVSA)
16k	DIOR	AP50	78	IMP+MTP(InternImage-XL)
16k	FAIR1M-2.0	mAP	53	MAE+MTP(ViT-L+RVSA)
16k	FAIR1M-2.0	mAP	51.92	MAE+MTP(ViT-B+RVSA)
16k	FAIR1M-2.0	mAP	50.93	IMP+MTP(InternImage-XL)
16k	xView	AP50	19.4	MAE+MTP(ViT-L+RVSA)
16k	xView	AP50	18.2	IMP+MTP(InternImage-XL)
16k	xView	AP50	16.4	MAE+MTP(ViT-B+RVSA)
16k	DIOR-R	mAP	74.54	MAE+MTP(ViT-L+RVSA)
16k	DIOR-R	mAP	72.17	IMP+MTP(InternImage-XL)
16k	DIOR-R	mAP	71.29	MAE+MTP(ViT-B+RVSA)

MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining

Abstract

Results

Related Papers

MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining

Abstract

Results

Related Papers