AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

Saleh Soltan, Shankar Ananthakrishnan, Jack FitzGerald, Rahul Gupta, Wael Hamza, Haidar Khan, Charith Peris, Stephen Rawls, Andy Rosenbaum, Anna Rumshisky, Chandana Satya Prakash, Mukund Sridhar, Fabian Triefenbach, Apurv Verma, Gokhan Tur, Prem Natarajan

2022-08-02Denoising Machine Translation Question Answering Few-Shot Learning Coreference Resolution Natural Language Inference Common Sense Reasoning Word Sense Disambiguation Language Modelling

Paper PDF Code

Abstract

In this work, we demonstrate that multilingual large-scale sequence-to-sequence (seq2seq) models, pre-trained on a mixture of denoising and Causal Language Modeling (CLM) tasks, are more efficient few-shot learners than decoder-only models on various tasks. In particular, we train a 20 billion parameter multilingual seq2seq model called Alexa Teacher Model (AlexaTM 20B) and show that it achieves state-of-the-art (SOTA) performance on 1-shot summarization tasks, outperforming a much larger 540B PaLM decoder model. AlexaTM 20B also achieves SOTA in 1-shot machine translation, especially for low-resource languages, across almost all language pairs supported by the model (Arabic, English, French, German, Hindi, Italian, Japanese, Marathi, Portuguese, Spanish, Tamil, and Telugu) on Flores-101 dataset. We also show in zero-shot setting, AlexaTM 20B outperforms GPT3 (175B) on SuperGLUE and SQuADv2 datasets and provides SOTA performance on multilingual tasks such as XNLI, XCOPA, Paws-X, and XWinograd. Overall, our results present a compelling case for seq2seq models as a powerful alternative to decoder-only models for Large-scale Language Model (LLM) training.

Results

Task	Dataset	Metric	Value	Model
Question Answering	COPA	Accuracy	78	AlexaTM 20B
Question Answering	MultiRC	F1	59.6	AlexaTM 20B
Question Answering	BoolQ	Accuracy	69.4	AlexaTM 20B
Common Sense Reasoning	ReCoRD	F1	88.4	AlexaTM 20B
Word Sense Disambiguation	Words in Context	Accuracy	53.3	AlexaTM 20B
Natural Language Inference	CommitmentBank	Accuracy	67.9	AlexaTM 20B
Coreference Resolution	Winograd Schema Challenge	Accuracy	68.3	AlexaTM 20B

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

Abstract

Results

Related Papers

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

Abstract

Results

Related Papers