PaLM: Scaling Language Modeling with Pathways

Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, Noah Fiedel

2022-04-05Google Research 2022 4Reading Comprehension Question Answering Few-Shot Learning Math Multi-task Language Understanding Sentence Completion Coreference Resolution Natural Language Inference Common Sense Reasoning Auto Debugging Logical Reasoning Cross-Lingual Question Answering Code Generation Memorization Language Modelling Multiple Choice Question Answering (MCQA)

Paper PDF Code Code Code Code Code Code Code

Abstract

Large language models have been shown to achieve remarkable performance across a variety of natural language tasks using few-shot learning, which drastically reduces the number of task-specific training examples needed to adapt the model to a particular application. To further our understanding of the impact of scale on few-shot learning, we trained a 540-billion parameter, densely activated, Transformer language model, which we call Pathways Language Model PaLM. We trained PaLM on 6144 TPU v4 chips using Pathways, a new ML system which enables highly efficient training across multiple TPU Pods. We demonstrate continued benefits of scaling by achieving state-of-the-art few-shot learning results on hundreds of language understanding and generation benchmarks. On a number of these tasks, PaLM 540B achieves breakthrough performance, outperforming the finetuned state-of-the-art on a suite of multi-step reasoning tasks, and outperforming average human performance on the recently released BIG-bench benchmark. A significant number of BIG-bench tasks showed discontinuous improvements from model scale, meaning that performance steeply increased as we scaled to our largest model. PaLM also has strong capabilities in multilingual tasks and source code generation, which we demonstrate on a wide array of benchmarks. We additionally provide a comprehensive analysis on bias and toxicity, and study the extent of training data memorization with respect to model scale. Finally, we discuss the ethical considerations related to large language models and discuss potential mitigation strategies.

Results

Task	Dataset	Metric	Value	Model
Reading Comprehension	RACE	Accuracy (High)	49.1	PaLM 540B (zero-shot)
Reading Comprehension	RACE	Accuracy (Middle)	68.1	PaLM 540B (zero-shot)
Reading Comprehension	RACE	Accuracy (High)	47.5	PaLM 62B (zero-shot)
Reading Comprehension	RACE	Accuracy (Middle)	64.3	PaLM 62B (zero-shot)
Reading Comprehension	RACE	Accuracy (High)	42.3	PaLM 8B (zero-shot)
Reading Comprehension	RACE	Accuracy (Middle)	57.9	PaLM 8B (zero-shot)
Transfer Learning	MGSM	Average (%)	55	PaLM 540B
Question Answering	COPA	Accuracy	100	PaLM 540B (finetuned)
Question Answering	Natural Questions	EM	39.6	PaLM-540B (Few-Shot, k=64)
Question Answering	Natural Questions	EM	29.3	PaLM-540B (One-Shot)
Question Answering	Natural Questions	EM	21.2	PaLM-540B (Zero-Shot)
Question Answering	OBQA	Accuracy	53.4	PaLM 540B (zero-shot)
Question Answering	OBQA	Accuracy	50.4	PaLM 62B (zero-shot)
Question Answering	MultiRC	EM	69.2	PaLM 540B (finetuned)
Question Answering	MultiRC	F1	90.1	PaLM 540B (finetuned)
Question Answering	WebQuestions	EM	43.5	PaLM-540B (Few-Shot)
Question Answering	WebQuestions	EM	22.6	PaLM-540B (One-Shot)
Question Answering	WebQuestions	EM	10.6	PaLM-540B (Zero-Shot)
Question Answering	BoolQ	Accuracy	92.2	PaLM 540B (fine-tuned)
Question Answering	TriviaQA	EM	81.4	PaLM-540B (Few-Shot)
Question Answering	TriviaQA	EM	81.4	PaLM-540B (One-Shot)
Question Answering	TriviaQA	EM	76.9	PaLM-540B (Zero-Shot)
Question Answering	BIG-bench (Novel Concepts)	Accuracy	71.9	PaLM-540B (few-shot, k=5)
Question Answering	BIG-bench (Novel Concepts)	Accuracy	59.4	PaLM-62B (few-shot, k=5)
Question Answering	TyDiQA-GoldP	EM	52.9	PaLM-540B (CoT)
Code Generation	MBPP	Accuracy	47	PaLM Coder 540B
Code Generation	MBPP	Accuracy	36.8	PaLM 540B
Common Sense Reasoning	WinoGrande	Accuracy	81.1	PaLM 540B (0-shot)
Common Sense Reasoning	WinoGrande	Accuracy	77	PaLM 62B (0-shot)
Common Sense Reasoning	WinoGrande	Accuracy	77	PaLM-cont 62B (0-shot)
Common Sense Reasoning	BIG-bench (Winowhy)	Accuracy	65.9	PaLM-540B (few-shot, k=5)
Common Sense Reasoning	BIG-bench (Winowhy)	Accuracy	61	PaLM-62B (few-shot, k=5)
Common Sense Reasoning	BIG-bench (Known Unknowns)	Accuracy	73.9	PaLM-540B (few-shot, k=5)
Common Sense Reasoning	ReCoRD	EM	94	PaLM 540B (finetuned)
Common Sense Reasoning	ReCoRD	F1	94.6	PaLM 540B (finetuned)
Word Sense Disambiguation	Words in Context	Accuracy	78.8	PaLM 540B (finetuned)
Natural Language Inference	CommitmentBank	Accuracy	100	PaLM 540B (finetuned)
Natural Language Inference	CommitmentBank	F1	100	PaLM 540B (finetuned)
Language Modelling	LAMBADA	Accuracy	89.7	PaLM-540B (Few-Shot)
Language Modelling	LAMBADA	Accuracy	81.8	PaLM-540B (One-Shot)
Language Modelling	LAMBADA	Accuracy	77.9	PaLM-540B (Zero-Shot)
Coreference Resolution	Winograd Schema Challenge	Accuracy	100	PaLM 540B (fine-tuned)
Coreference Resolution	Winograd Schema Challenge	Accuracy	89.5	PaLM 540B (5-shot)
Coreference Resolution	Winograd Schema Challenge	Accuracy	89.1	PaLM 540B (0-shot)
Coreference Resolution	Winograd Schema Challenge	Accuracy	86.3	PaLM 540B (1-shot)
Multi-Task Learning	MGSM	Average (%)	55	PaLM 540B
Extreme Summarization	GEM-XSum	ROUGE-2	21.2	PaLM (finetuning)-540B
Extreme Summarization	GEM-XSum	ROUGE-2	21	T5-XXL
Extreme Summarization	GEM-XSum	ROUGE-2	18.5	PaLM (finetuning)-62B
Sentence Completion	HellaSwag	Accuracy	83.8	PaLM-540B (Few-Shot)
Sentence Completion	HellaSwag	Accuracy	83.6	PaLM-540B (1-shot)
Sentence Completion	HellaSwag	Accuracy	83.4	PaLM-540B (0-shot)
Auto Debugging	Big-bench Lite	Exact string match	38.2	PaLM 62B (few-shot, k=5)
Auto Debugging	Big-bench Lite	Exact string match	38.2	PaLM 540B (few-shot, k=5)
Auto Debugging	Big-bench Lite	Exact string match	14.7	PaLM 8B (few-shot, k=5)
Logical Reasoning	BIG-bench (StrategyQA)	Accuracy	73.9	PaLM-540B (few-shot, k=5)
Logical Reasoning	BIG-bench (StrategyQA)	Accuracy	65.4	PaLM-62B (few-shot, k=5)
Memorization	BIG-bench (Hindu Knowledge)	Accuracy	95.4	PaLM-540B (few-shot, k=5)
Memorization	BIG-bench (Hindu Knowledge)	Accuracy	77.7	PaLM-62B (few-shot, k=5)

PaLM: Scaling Language Modeling with Pathways

Abstract

Results

Task	Dataset	Metric	Value	Model
Reading Comprehension	RACE	Accuracy (High)	49.1	PaLM 540B (zero-shot)
Reading Comprehension	RACE	Accuracy (Middle)	68.1	PaLM 540B (zero-shot)
Reading Comprehension	RACE	Accuracy (High)	47.5	PaLM 62B (zero-shot)
Reading Comprehension	RACE	Accuracy (Middle)	64.3	PaLM 62B (zero-shot)
Reading Comprehension	RACE	Accuracy (High)	42.3	PaLM 8B (zero-shot)
Reading Comprehension	RACE	Accuracy (Middle)	57.9	PaLM 8B (zero-shot)
Transfer Learning	MGSM	Average (%)	55	PaLM 540B
Question Answering	COPA	Accuracy	100	PaLM 540B (finetuned)
Question Answering	Natural Questions	EM	39.6	PaLM-540B (Few-Shot, k=64)
Question Answering	Natural Questions	EM	29.3	PaLM-540B (One-Shot)
Question Answering	Natural Questions	EM	21.2	PaLM-540B (Zero-Shot)
Question Answering	OBQA	Accuracy	53.4	PaLM 540B (zero-shot)
Question Answering	OBQA	Accuracy	50.4	PaLM 62B (zero-shot)
Question Answering	MultiRC	EM	69.2	PaLM 540B (finetuned)
Question Answering	MultiRC	F1	90.1	PaLM 540B (finetuned)
Question Answering	WebQuestions	EM	43.5	PaLM-540B (Few-Shot)
Question Answering	WebQuestions	EM	22.6	PaLM-540B (One-Shot)
Question Answering	WebQuestions	EM	10.6	PaLM-540B (Zero-Shot)
Question Answering	BoolQ	Accuracy	92.2	PaLM 540B (fine-tuned)
Question Answering	TriviaQA	EM	81.4	PaLM-540B (Few-Shot)
Question Answering	TriviaQA	EM	81.4	PaLM-540B (One-Shot)
Question Answering	TriviaQA	EM	76.9	PaLM-540B (Zero-Shot)
Question Answering	BIG-bench (Novel Concepts)	Accuracy	71.9	PaLM-540B (few-shot, k=5)
Question Answering	BIG-bench (Novel Concepts)	Accuracy	59.4	PaLM-62B (few-shot, k=5)
Question Answering	TyDiQA-GoldP	EM	52.9	PaLM-540B (CoT)
Code Generation	MBPP	Accuracy	47	PaLM Coder 540B
Code Generation	MBPP	Accuracy	36.8	PaLM 540B
Common Sense Reasoning	WinoGrande	Accuracy	81.1	PaLM 540B (0-shot)
Common Sense Reasoning	WinoGrande	Accuracy	77	PaLM 62B (0-shot)
Common Sense Reasoning	WinoGrande	Accuracy	77	PaLM-cont 62B (0-shot)
Common Sense Reasoning	BIG-bench (Winowhy)	Accuracy	65.9	PaLM-540B (few-shot, k=5)
Common Sense Reasoning	BIG-bench (Winowhy)	Accuracy	61	PaLM-62B (few-shot, k=5)
Common Sense Reasoning	BIG-bench (Known Unknowns)	Accuracy	73.9	PaLM-540B (few-shot, k=5)
Common Sense Reasoning	ReCoRD	EM	94	PaLM 540B (finetuned)
Common Sense Reasoning	ReCoRD	F1	94.6	PaLM 540B (finetuned)
Word Sense Disambiguation	Words in Context	Accuracy	78.8	PaLM 540B (finetuned)
Natural Language Inference	CommitmentBank	Accuracy	100	PaLM 540B (finetuned)
Natural Language Inference	CommitmentBank	F1	100	PaLM 540B (finetuned)
Language Modelling	LAMBADA	Accuracy	89.7	PaLM-540B (Few-Shot)
Language Modelling	LAMBADA	Accuracy	81.8	PaLM-540B (One-Shot)
Language Modelling	LAMBADA	Accuracy	77.9	PaLM-540B (Zero-Shot)
Coreference Resolution	Winograd Schema Challenge	Accuracy	100	PaLM 540B (fine-tuned)
Coreference Resolution	Winograd Schema Challenge	Accuracy	89.5	PaLM 540B (5-shot)
Coreference Resolution	Winograd Schema Challenge	Accuracy	89.1	PaLM 540B (0-shot)
Coreference Resolution	Winograd Schema Challenge	Accuracy	86.3	PaLM 540B (1-shot)
Multi-Task Learning	MGSM	Average (%)	55	PaLM 540B
Extreme Summarization	GEM-XSum	ROUGE-2	21.2	PaLM (finetuning)-540B
Extreme Summarization	GEM-XSum	ROUGE-2	21	T5-XXL
Extreme Summarization	GEM-XSum	ROUGE-2	18.5	PaLM (finetuning)-62B
Sentence Completion	HellaSwag	Accuracy	83.8	PaLM-540B (Few-Shot)
Sentence Completion	HellaSwag	Accuracy	83.6	PaLM-540B (1-shot)
Sentence Completion	HellaSwag	Accuracy	83.4	PaLM-540B (0-shot)
Auto Debugging	Big-bench Lite	Exact string match	38.2	PaLM 62B (few-shot, k=5)
Auto Debugging	Big-bench Lite	Exact string match	38.2	PaLM 540B (few-shot, k=5)
Auto Debugging	Big-bench Lite	Exact string match	14.7	PaLM 8B (few-shot, k=5)
Logical Reasoning	BIG-bench (StrategyQA)	Accuracy	73.9	PaLM-540B (few-shot, k=5)
Logical Reasoning	BIG-bench (StrategyQA)	Accuracy	65.4	PaLM-62B (few-shot, k=5)
Memorization	BIG-bench (Hindu Knowledge)	Accuracy	95.4	PaLM-540B (few-shot, k=5)
Memorization	BIG-bench (Hindu Knowledge)	Accuracy	77.7	PaLM-62B (few-shot, k=5)

PaLM: Scaling Language Modeling with Pathways

Abstract

Results

Related Papers

PaLM: Scaling Language Modeling with Pathways

Abstract

Results

Related Papers