InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training

Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, He-Yan Huang, Ming Zhou

2020-07-15NAACL 2021 4Cross-Lingual Transfer Contrastive Learning Language Modelling

Abstract

In this work, we present an information-theoretic framework that formulates cross-lingual language model pre-training as maximizing mutual information between multilingual-multi-granularity texts. The unified view helps us to better understand the existing methods for learning cross-lingual representations. More importantly, inspired by the framework, we propose a new pre-training task based on contrastive learning. Specifically, we regard a bilingual sentence pair as two views of the same meaning and encourage their encoded representations to be more similar than the negative examples. By leveraging both monolingual and parallel corpora, we jointly train the pretext tasks to improve the cross-lingual transferability of pre-trained models. Experimental results on several benchmarks show that our approach achieves considerably better performance. The code and pre-trained models are available at https://aka.ms/infoxlm.

Results

Task	Dataset	Metric	Value	Model
Cross-Lingual	XTREME	Avg	80.7	T-ULRv2 + StableTune
Cross-Lingual	XTREME	Question Answering	72.9	T-ULRv2 + StableTune
Cross-Lingual	XTREME	Sentence Retrieval	89.3	T-ULRv2 + StableTune
Cross-Lingual	XTREME	Sentence-pair Classification	88.8	T-ULRv2 + StableTune
Cross-Lingual	XTREME	Structured Prediction	75.4	T-ULRv2 + StableTune
Cross-Lingual Transfer	XTREME	Avg	80.7	T-ULRv2 + StableTune
Cross-Lingual Transfer	XTREME	Question Answering	72.9	T-ULRv2 + StableTune
Cross-Lingual Transfer	XTREME	Sentence Retrieval	89.3	T-ULRv2 + StableTune
Cross-Lingual Transfer	XTREME	Sentence-pair Classification	88.8	T-ULRv2 + StableTune
Cross-Lingual Transfer	XTREME	Structured Prediction	75.4	T-ULRv2 + StableTune

InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training

Abstract

Results

Related Papers

InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training

Abstract

Results

Related Papers