Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization

Devansh Arpit, Huan Wang, Yingbo Zhou, Caiming Xiong

2021-10-21Domain Generalization Model Selection

Abstract

In Domain Generalization (DG) settings, models trained independently on a given set of training domains have notoriously chaotic performance on distribution shifted test domains, and stochasticity in optimization (e.g. seed) plays a big role. This makes deep learning models unreliable in real world settings. We first show that this chaotic behavior exists even along the training optimization trajectory of a single model, and propose a simple model averaging protocol that both significantly boosts domain generalization and diminishes the impact of stochasticity by improving the rank correlation between the in-domain validation accuracy and out-domain test accuracy, which is crucial for reliable early stopping. Taking advantage of our observation, we show that instead of ensembling unaveraged models (that is typical in practice), ensembling moving average models (EoA) from independent runs further boosts performance. We theoretically explain the boost in performance of ensembling and model averaging by adapting the well known Bias-Variance trade-off to the domain generalization setting. On the DomainBed benchmark, when using a pre-trained ResNet-50, this ensemble of averages achieves an average of $68.0\%$, beating vanilla ERM (w/o averaging/ensembling) by $\sim 4\%$, and when using a pre-trained RegNetY-16GF, achieves an average of $76.6\%$, beating vanilla ERM by $6\%$. Our code is available at \url{https://github.com/salesforce/ensemble-of-averages}.

Results

Task	Dataset	Metric	Value	Model
Domain Adaptation	PACS	Average Accuracy	95.8	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	PACS	Average Accuracy	93.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	PACS	Average Accuracy	88.6	Ensemble of Averages (ResNet-50)
Domain Adaptation	Office-Home	Average Accuracy	83.9	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	Office-Home	Average Accuracy	80.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	Office-Home	Average Accuracy	72.5	Ensemble of Averages (ResNet-50)
Domain Adaptation	DomainNet	Average Accuracy	60.9	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	DomainNet	Average Accuracy	54.6	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	DomainNet	Average Accuracy	47.4	Ensemble of Averages (ResNet-50)
Domain Adaptation	VLCS	Average Accuracy	81.1	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	VLCS	Average Accuracy	80.4	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	VLCS	Average Accuracy	79.1	Ensemble of Averages (ResNet-50)
Domain Adaptation	TerraIncognita	Average Accuracy	61.1	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	TerraIncognita	Average Accuracy	55.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	TerraIncognita	Average Accuracy	52.3	Ensemble of Averages (ResNet-50)
Domain Generalization	PACS	Average Accuracy	95.8	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	PACS	Average Accuracy	93.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	PACS	Average Accuracy	88.6	Ensemble of Averages (ResNet-50)
Domain Generalization	Office-Home	Average Accuracy	83.9	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	Office-Home	Average Accuracy	80.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	Office-Home	Average Accuracy	72.5	Ensemble of Averages (ResNet-50)
Domain Generalization	DomainNet	Average Accuracy	60.9	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	DomainNet	Average Accuracy	54.6	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	DomainNet	Average Accuracy	47.4	Ensemble of Averages (ResNet-50)
Domain Generalization	VLCS	Average Accuracy	81.1	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	VLCS	Average Accuracy	80.4	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	VLCS	Average Accuracy	79.1	Ensemble of Averages (ResNet-50)
Domain Generalization	TerraIncognita	Average Accuracy	61.1	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	TerraIncognita	Average Accuracy	55.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	TerraIncognita	Average Accuracy	52.3	Ensemble of Averages (ResNet-50)

Abstract

Results

Task	Dataset	Metric	Value	Model
Domain Adaptation	PACS	Average Accuracy	95.8	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	PACS	Average Accuracy	93.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	PACS	Average Accuracy	88.6	Ensemble of Averages (ResNet-50)
Domain Adaptation	Office-Home	Average Accuracy	83.9	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	Office-Home	Average Accuracy	80.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	Office-Home	Average Accuracy	72.5	Ensemble of Averages (ResNet-50)
Domain Adaptation	DomainNet	Average Accuracy	60.9	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	DomainNet	Average Accuracy	54.6	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	DomainNet	Average Accuracy	47.4	Ensemble of Averages (ResNet-50)
Domain Adaptation	VLCS	Average Accuracy	81.1	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	VLCS	Average Accuracy	80.4	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	VLCS	Average Accuracy	79.1	Ensemble of Averages (ResNet-50)
Domain Adaptation	TerraIncognita	Average Accuracy	61.1	Ensemble of Averages (RegNetY-16GF)
Domain Adaptation	TerraIncognita	Average Accuracy	55.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Adaptation	TerraIncognita	Average Accuracy	52.3	Ensemble of Averages (ResNet-50)
Domain Generalization	PACS	Average Accuracy	95.8	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	PACS	Average Accuracy	93.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	PACS	Average Accuracy	88.6	Ensemble of Averages (ResNet-50)
Domain Generalization	Office-Home	Average Accuracy	83.9	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	Office-Home	Average Accuracy	80.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	Office-Home	Average Accuracy	72.5	Ensemble of Averages (ResNet-50)
Domain Generalization	DomainNet	Average Accuracy	60.9	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	DomainNet	Average Accuracy	54.6	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	DomainNet	Average Accuracy	47.4	Ensemble of Averages (ResNet-50)
Domain Generalization	VLCS	Average Accuracy	81.1	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	VLCS	Average Accuracy	80.4	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	VLCS	Average Accuracy	79.1	Ensemble of Averages (ResNet-50)
Domain Generalization	TerraIncognita	Average Accuracy	61.1	Ensemble of Averages (RegNetY-16GF)
Domain Generalization	TerraIncognita	Average Accuracy	55.2	Ensemble of Averages (ResNeXt-50 32x4d)
Domain Generalization	TerraIncognita	Average Accuracy	52.3	Ensemble of Averages (ResNet-50)

Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization

Abstract

Results

Related Papers

Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization

Abstract

Results

Related Papers