Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov

2019-01-09ACL 2019 7Language Modelling

Paper PDF Code Code Code Code Code Code Code Code Code Code Code Code Code(official)Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code

Abstract

Transformers have a potential of learning longer-term dependency, but are limited by a fixed-length context in the setting of language modeling. We propose a novel neural architecture Transformer-XL that enables learning dependency beyond a fixed length without disrupting temporal coherence. It consists of a segment-level recurrence mechanism and a novel positional encoding scheme. Our method not only enables capturing longer-term dependency, but also resolves the context fragmentation problem. As a result, Transformer-XL learns dependency that is 80% longer than RNNs and 450% longer than vanilla Transformers, achieves better performance on both short and long sequences, and is up to 1,800+ times faster than vanilla Transformers during evaluation. Notably, we improve the state-of-the-art results of bpc/perplexity to 0.99 on enwiki8, 1.08 on text8, 18.3 on WikiText-103, 21.8 on One Billion Word, and 54.5 on Penn Treebank (without finetuning). When trained only on WikiText-103, Transformer-XL manages to generate reasonably coherent, novel text articles with thousands of tokens. Our code, pretrained models, and hyperparameters are available in both Tensorflow and PyTorch.

Results

Task	Dataset	Metric	Value	Model
Language Modelling	Penn Treebank (Word Level)	Test perplexity	54.55	Transformer-XL
Language Modelling	Penn Treebank (Word Level)	Validation perplexity	56.72	Transformer-XL
Language Modelling	WikiText-103	Test perplexity	18.3	Transformer-XL Large
Language Modelling	WikiText-103	Validation perplexity	18.2	Transformer-XL Large
Language Modelling	WikiText-103	Test perplexity	24	Transformer-XL Standard
Language Modelling	WikiText-103	Validation perplexity	23.1	Transformer-XL Standard
Language Modelling	Text8	Bit per Character (BPC)	1.08	Transformer-XL - 24 layers
Language Modelling	Hutter Prize	Bit per Character (BPC)	0.99	24-layer Transformer-XL
Language Modelling	Hutter Prize	Bit per Character (BPC)	1.03	18-layer Transformer-XL
Language Modelling	Hutter Prize	Bit per Character (BPC)	1.06	12-layer Transformer-XL
Language Modelling	One Billion Word	PPL	21.8	Transformer-XL Large
Language Modelling	One Billion Word	PPL	23.5	Transformer-XL Base
Language Modelling	enwik8	Bit per Character (BPC)	0.99	Transformer-XL (24 layers)
Language Modelling	enwik8	Bit per Character (BPC)	1.03	Transformer-XL (18 layers)
Language Modelling	enwik8	Bit per Character (BPC)	1.06	Transformer-XL (12 layers)

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Abstract

Results

Related Papers

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Abstract

Results

Related Papers