Prune Once for All: Sparse Pre-Trained Language Models

Ofir Zafrir, Ariel Larey, Guy Boudoukh, Haihao Shen, Moshe Wasserblat

2021-11-10Question Answering Sentiment Analysis Quantization Natural Language Inference Transfer Learning All

Abstract

Transformer-based language models are applied to a wide range of applications in natural language processing. However, they are inefficient and difficult to deploy. In recent years, many compression algorithms have been proposed to increase the implementation efficiency of large Transformer-based models on target hardware. In this work we present a new method for training sparse pre-trained Transformer language models by integrating weight pruning and model distillation. These sparse pre-trained models can be used to transfer learning for a wide range of tasks while maintaining their sparsity pattern. We demonstrate our method with three known architectures to create sparse pre-trained BERT-Base, BERT-Large and DistilBERT. We show how the compressed sparse pre-trained models we trained transfer their knowledge to five different downstream natural language tasks with minimal accuracy loss. Moreover, we show how to further compress the sparse models' weights to 8bit precision using quantization-aware training. For example, with our sparse pre-trained BERT-Large fine-tuned on SQuADv1.1 and quantized to 8bit we achieve a compression ratio of $40$X for the encoder with less than $1\%$ accuracy loss. To the best of our knowledge, our results show the best compression-to-accuracy ratio for BERT-Base, BERT-Large, and DistilBERT.

Results

Task	Dataset	Metric	Value	Model
Question Answering	SQuAD1.1 dev	EM	83.35	BERT-Large-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	90.2	BERT-Large-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	83.22	BERT-Large-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	F1	90.02	BERT-Large-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	EM	81.1	BERT-Base-uncased-PruneOFA (85% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	88.42	BERT-Base-uncased-PruneOFA (85% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	80.84	BERT-Base-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	F1	88.24	BERT-Base-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	EM	79.83	BERT-Base-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	87.25	BERT-Base-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	78.1	DistilBERT-uncased-PruneOFA (85% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	85.82	DistilBERT-uncased-PruneOFA (85% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	77.03	DistilBERT-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	F1	85.13	DistilBERT-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	EM	76.91	DistilBERT-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	84.82	DistilBERT-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	75.62	DistilBERT-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	F1	83.87	DistilBERT-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Matched	83.74	BERT-Large-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	84.2	BERT-Large-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	83.47	BERT-Large-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Mismatched	84.08	BERT-Large-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Matched	82.71	BERT-Base-uncased-PruneOFA (85% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	83.67	BERT-Base-uncased-PruneOFA (85% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	81.45	BERT-Base-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	82.43	BERT-Base-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	81.4	BERT-Base-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Mismatched	82.51	BERT-Base-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Matched	81.35	DistilBERT-uncased-PruneOFA (85% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	82.03	DistilBERT-uncased-PruneOFA (85% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	80.68	DistilBERT-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	81.47	DistilBERT-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	80.66	DistilBERT-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Mismatched	81.14	DistilBERT-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Matched	78.8	DistilBERT-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Mismatched	80.4	DistilBERT-uncased-PruneOFA (90% unstruct sparse, QAT Int8)

Abstract

Results

Task	Dataset	Metric	Value	Model
Question Answering	SQuAD1.1 dev	EM	83.35	BERT-Large-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	90.2	BERT-Large-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	83.22	BERT-Large-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	F1	90.02	BERT-Large-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	EM	81.1	BERT-Base-uncased-PruneOFA (85% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	88.42	BERT-Base-uncased-PruneOFA (85% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	80.84	BERT-Base-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	F1	88.24	BERT-Base-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	EM	79.83	BERT-Base-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	87.25	BERT-Base-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	78.1	DistilBERT-uncased-PruneOFA (85% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	85.82	DistilBERT-uncased-PruneOFA (85% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	77.03	DistilBERT-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	F1	85.13	DistilBERT-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	EM	76.91	DistilBERT-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	F1	84.82	DistilBERT-uncased-PruneOFA (90% unstruct sparse)
Question Answering	SQuAD1.1 dev	EM	75.62	DistilBERT-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Question Answering	SQuAD1.1 dev	F1	83.87	DistilBERT-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Matched	83.74	BERT-Large-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	84.2	BERT-Large-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	83.47	BERT-Large-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Mismatched	84.08	BERT-Large-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Matched	82.71	BERT-Base-uncased-PruneOFA (85% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	83.67	BERT-Base-uncased-PruneOFA (85% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	81.45	BERT-Base-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	82.43	BERT-Base-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	81.4	BERT-Base-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Mismatched	82.51	BERT-Base-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Matched	81.35	DistilBERT-uncased-PruneOFA (85% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	82.03	DistilBERT-uncased-PruneOFA (85% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	80.68	DistilBERT-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Mismatched	81.47	DistilBERT-uncased-PruneOFA (90% unstruct sparse)
Natural Language Inference	MultiNLI Dev	Matched	80.66	DistilBERT-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Mismatched	81.14	DistilBERT-uncased-PruneOFA (85% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Matched	78.8	DistilBERT-uncased-PruneOFA (90% unstruct sparse, QAT Int8)
Natural Language Inference	MultiNLI Dev	Mismatched	80.4	DistilBERT-uncased-PruneOFA (90% unstruct sparse, QAT Int8)

Prune Once for All: Sparse Pre-Trained Language Models

Abstract

Results

Related Papers

Prune Once for All: Sparse Pre-Trained Language Models

Abstract

Results

Related Papers