GLM-130B: An Open Bilingual Pre-trained Model

Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, Weng Lam Tam, Zixuan Ma, Yufei Xue, Jidong Zhai, WenGuang Chen, Peng Zhang, Yuxiao Dong, Jie Tang

2022-10-05Multi-task Language Understanding Long-Context Understanding Quantization Language Modelling

Paper PDF Code(official)Code Code Code Code Code Code Code Code

Abstract

We introduce GLM-130B, a bilingual (English and Chinese) pre-trained language model with 130 billion parameters. It is an attempt to open-source a 100B-scale model at least as good as GPT-3 (davinci) and unveil how models of such a scale can be successfully pre-trained. Over the course of this effort, we face numerous unexpected technical and engineering challenges, particularly on loss spikes and divergence. In this paper, we introduce the training process of GLM-130B including its design choices, training strategies for both efficiency and stability, and engineering efforts. The resultant GLM-130B model offers significant outperformance over GPT-3 175B (davinci) on a wide range of popular English benchmarks while the performance advantage is not observed in OPT-175B and BLOOM-176B. It also consistently and significantly outperforms ERNIE TITAN 3.0 260B -- the largest Chinese language model -- across related benchmarks. Finally, we leverage a unique scaling property of GLM-130B to reach INT4 quantization without post training, with almost no performance loss, making it the first among 100B-scale models and more importantly, allowing its effective inference on 4$\times$RTX 3090 (24G) or 8$\times$RTX 2080 Ti (11G) GPUs, the most affordable GPUs required for using 100B-scale models. The GLM-130B model weights are publicly accessible and its code, training logs, related toolkit, and lessons learned are open-sourced at \url{https://github.com/THUDM/GLM-130B/}.

Results

Task	Dataset	Metric	Value	Model
Transfer Learning	MML	Average (%)	44.8	GLM-130B
Language Modelling	BIG-bench-lite	Accuracy	15.11	GLM-130B (3-shot)
Language Modelling	BIG-bench-lite	Accuracy	14.91	GLM-130B (1-shot)
Language Modelling	BIG-bench-lite	Accuracy	13.31	GLM-130B (0-shot)
Language Modelling	CLUE (WSC1.1)	Accuracy	83.9	GLM-130B
Language Modelling	CLUE (WSC1.1)	Accuracy	81.1	ERNIE 3.0 Titan-260B
Language Modelling	CLUE (DRCD)	Accuracy	77.1	GLM-130B
Language Modelling	CLUE (DRCD)	Accuracy	29.5	ERNIE 3.0 Titan-260B
Language Modelling	CLUE (CMRC2018)	Accuracy	55.7	GLM-130B
Language Modelling	CLUE (CMRC2018)	Accuracy	16.6	ERNIE 3.0 Titan-260B
Language Modelling	FewCLUE (BUSTM)	Accuracy	77.5	GLM-130B
Language Modelling	FewCLUE (BUSTM)	Accuracy	64.4	ERNIE 3.0 Titan-260B
Language Modelling	FewCLUE (EPRSTMT)	Accuracy	92.5	GLM-130B
Language Modelling	FewCLUE (EPRSTMT)	Accuracy	88.8	ERNIE 3.0 Titan-260B
Language Modelling	FewCLUE (CHID-FC)	Accuracy	90.1	GLM-130B
Language Modelling	FewCLUE (CHID-FC)	Accuracy	87.1	ERNIE 3.0 Titan-260B
Language Modelling	LAMBADA	Accuracy	80.2	GLM-130B (bidirectional attention)
Language Modelling	CLUE (OCNLI_50K)	Accuracy	74.7	GLM-130B
Language Modelling	CLUE (OCNLI_50K)	Accuracy	44.6	ERNIE 3.0 Titan-260B
Language Modelling	FewCLUE (OCNLI-FC)	Accuracy	73.8	GLM-130B
Language Modelling	FewCLUE (OCNLI-FC)	Accuracy	53.8	ERNIE 3.0 Titan-260B
Language Modelling	CLUE (AFQMC)	Accuracy	71.2	GLM-130B
Language Modelling	CLUE (AFQMC)	Accuracy	69	ERNIE 3.0 Titan-260B
Language Modelling	CLUE (C3)	Accuracy	77.5	GLM-130B
Language Modelling	CLUE (C3)	Accuracy	54.9	ERNIE 3.0 Titan-260B
Language Modelling	The Pile	Bits per byte	0.634	GLM-130B
Language Modelling	The Pile	Bits per byte	0.65	Jurassic-1
Language Modelling	The Pile	Bits per byte	0.742	GPT-3
Language Modelling	FewCLUE (CLUEWSC-FC)	Accuracy	77.4	GLM-130B
Language Modelling	FewCLUE (CLUEWSC-FC)	Accuracy	53.5	ERNIE 3.0 Titan-260B
Language Modelling	CLUE (CMNLI)	Accuracy	77	GLM-130B
Language Modelling	CLUE (CMNLI)	Accuracy	51.7	ERNIE 3.0 Titan-260B
Multi-Task Learning	MML	Average (%)	44.8	GLM-130B
Long-Context Understanding	Ada-LEval (BestAnswer)	12k	0.9	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	16k	0.5	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	1k	39.8	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	2k	18.8	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	4k	9	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	6k	5	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	8k	3.4	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	16k	0.3	ChatGLM2-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	1k	31.2	ChatGLM2-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	2k	10.9	ChatGLM2-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	4k	4.5	ChatGLM2-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	6k	1.6	ChatGLM2-6b-32k
Long-Context Understanding	Ada-LEval (BestAnswer)	8k	1.6	ChatGLM2-6b-32k
Long-Context Understanding	Ada-LEval (TSort)	16k	0.7	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (TSort)	2k	2.3	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (TSort)	4k	2.4	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (TSort)	8k	2	ChatGLM3-6b-32k
Long-Context Understanding	Ada-LEval (TSort)	16k	0.9	ChatGLM2-6b-32k
Long-Context Understanding	Ada-LEval (TSort)	2k	0.9	ChatGLM2-6b-32k
Long-Context Understanding	Ada-LEval (TSort)	4k	0.2	ChatGLM2-6b-32k
Long-Context Understanding	Ada-LEval (TSort)	8k	0.7	ChatGLM2-6b-32k

GLM-130B: An Open Bilingual Pre-trained Model

Abstract

Results

Related Papers

GLM-130B: An Open Bilingual Pre-trained Model

Abstract

Results

Related Papers