mT5: A massively multilingual pre-trained text-to-text transformer

Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel

2020-10-22NAACL 2021 4Reading Comprehension Question Answering Natural Language Inference Common Sense Reasoning Translation

Paper PDF Code Code Code Code Code(official)Code Code Code

Abstract

The recent "Text-to-Text Transfer Transformer" (T5) leveraged a unified text-to-text format and scale to attain state-of-the-art results on a wide variety of English-language NLP tasks. In this paper, we introduce mT5, a multilingual variant of T5 that was pre-trained on a new Common Crawl-based dataset covering 101 languages. We detail the design and modified training of mT5 and demonstrate its state-of-the-art performance on many multilingual benchmarks. We also describe a simple technique to prevent "accidental translation" in the zero-shot setting, where a generative model chooses to (partially) translate its prediction into the wrong language. All of the code and model checkpoints used in this work are publicly available.

Results

Task	Dataset	Metric	Value	Model
Reading Comprehension	MuSeRC	Average F1	0.844	MT5 Large
Reading Comprehension	MuSeRC	EM	0.543	MT5 Large
Question Answering	DaNetQA	Accuracy	0.657	MT5 Large
Common Sense Reasoning	RWSD	Accuracy	0.669	MT5 Large
Common Sense Reasoning	PARus	Accuracy	0.504	MT5 Large
Common Sense Reasoning	RuCoS	Average F1	0.57	MT5 Large
Common Sense Reasoning	RuCoS	EM	0.562	MT5 Large
Natural Language Inference	RCB	Accuracy	0.454	MT5 Large
Natural Language Inference	RCB	Average F1	0.366	MT5 Large
Natural Language Inference	LiDiRus	MCC	0.061	MT5 Large
Natural Language Inference	TERRa	Accuracy	0.561	MT5 Large
Cross-Lingual	XTREME	Avg	40.9	mT5
Cross-Lingual	XTREME	Question Answering	73.6	mT5
Cross-Lingual	XTREME	Sentence-pair Classification	89.8	mT5
Cross-Lingual Transfer	XTREME	Avg	40.9	mT5
Cross-Lingual Transfer	XTREME	Question Answering	73.6	mT5
Cross-Lingual Transfer	XTREME	Sentence-pair Classification	89.8	mT5

mT5: A massively multilingual pre-trained text-to-text transformer

Abstract

Results

Related Papers

mT5: A massively multilingual pre-trained text-to-text transformer

Abstract

Results

Related Papers