Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations

Fangyu Liu, Yunlong Jiao, Jordan Massiah, Emine Yilmaz, Serhii Havrylov

2021-09-27ICLR 2022 4Paraphrase Identification Sentence Similarity Semantic Textual Similarity Contrastive Learning Language Modelling

Paper PDF Code(official)

Abstract

In NLP, a large volume of tasks involve pairwise comparison between two sequences (e.g. sentence similarity and paraphrase identification). Predominantly, two formulations are used for sentence-pair tasks: bi-encoders and cross-encoders. Bi-encoders produce fixed-dimensional sentence representations and are computationally efficient, however, they usually underperform cross-encoders. Cross-encoders can leverage their attention heads to exploit inter-sentence interactions for better performance but they require task fine-tuning and are computationally more expensive. In this paper, we present a completely unsupervised sentence representation model termed as Trans-Encoder that combines the two learning paradigms into an iterative joint framework to simultaneously learn enhanced bi- and cross-encoders. Specifically, on top of a pre-trained Language Model (PLM), we start with converting it to an unsupervised bi-encoder, and then alternate between the bi- and cross-encoder task formulations. In each alternation, one task formulation will produce pseudo-labels which are used as learning signals for the other task formulation. We then propose an extension to conduct such self-distillation approach on multiple PLMs in parallel and use the average of their pseudo-labels for mutual-distillation. Trans-Encoder creates, to the best of our knowledge, the first completely unsupervised cross-encoder and also a state-of-the-art unsupervised bi-encoder for sentence similarity. Both the bi-encoder and cross-encoder formulations of Trans-Encoder outperform recently proposed state-of-the-art unsupervised sentence encoders such as Mirror-BERT and SimCSE by up to 5% on the sentence similarity benchmarks.

Results

Task	Dataset	Metric	Value	Model
Semantic Textual Similarity	STS14	Spearman Correlation	0.8194	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS14	Spearman Correlation	0.8176	Trans-Encoder-RoBERTa-large-bi (unsup.)
Semantic Textual Similarity	STS14	Spearman Correlation	0.8137	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS14	Spearman Correlation	0.7903	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS14	Spearman Correlation	0.779	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8863	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8816	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8577	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8508	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8444	Trans-Encoder-BERT-base-cross (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.7276	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.7192	Trans-Encoder-BERT-large-cross (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.7163	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.7133	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.6952	Trans-Encoder-BERT-base-cross (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.8851	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.8831	Trans-Encoder-BERT-large-cross (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.8831	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.8559	Trans-Encoder-BERT-base-cross (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.851	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.867	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.8655	Trans-Encoder-RoBERTa-large-bi (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.8616	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.8465	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.839	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS12	Spearman Correlation	0.7828	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS12	Spearman Correlation	0.7819	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS12	Spearman Correlation	0.7637	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS12	Spearman Correlation	0.7509	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS16	Spearman Correlation	0.8503	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS16	Spearman Correlation	0.8481	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS16	Spearman Correlation	0.8377	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS16	Spearman Correlation	0.8305	Trans-Encoder-BERT-base-bi (unsup.)

Abstract

Results

Task	Dataset	Metric	Value	Model
Semantic Textual Similarity	STS14	Spearman Correlation	0.8194	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS14	Spearman Correlation	0.8176	Trans-Encoder-RoBERTa-large-bi (unsup.)
Semantic Textual Similarity	STS14	Spearman Correlation	0.8137	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS14	Spearman Correlation	0.7903	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS14	Spearman Correlation	0.779	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8863	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8816	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8577	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8508	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS15	Spearman Correlation	0.8444	Trans-Encoder-BERT-base-cross (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.7276	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.7192	Trans-Encoder-BERT-large-cross (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.7163	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.7133	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	SICK	Spearman Correlation	0.6952	Trans-Encoder-BERT-base-cross (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.8851	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.8831	Trans-Encoder-BERT-large-cross (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.8831	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.8559	Trans-Encoder-BERT-base-cross (unsup.)
Semantic Textual Similarity	STS13	Spearman Correlation	0.851	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.867	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.8655	Trans-Encoder-RoBERTa-large-bi (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.8616	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.8465	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS Benchmark	Spearman Correlation	0.839	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS12	Spearman Correlation	0.7828	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS12	Spearman Correlation	0.7819	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS12	Spearman Correlation	0.7637	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS12	Spearman Correlation	0.7509	Trans-Encoder-BERT-base-bi (unsup.)
Semantic Textual Similarity	STS16	Spearman Correlation	0.8503	Trans-Encoder-RoBERTa-large-cross (unsup.)
Semantic Textual Similarity	STS16	Spearman Correlation	0.8481	Trans-Encoder-BERT-large-bi (unsup.)
Semantic Textual Similarity	STS16	Spearman Correlation	0.8377	Trans-Encoder-RoBERTa-base-cross (unsup.)
Semantic Textual Similarity	STS16	Spearman Correlation	0.8305	Trans-Encoder-BERT-base-bi (unsup.)

Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations

Abstract

Results

Related Papers

Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations

Abstract

Results

Related Papers