An Analysis of Neural Language Modeling at Multiple Scales

Stephen Merity, Nitish Shirish Keskar, Richard Socher

2018-03-22Language Modelling

Paper PDF Code Code Code Code Code Code Code Code Code Code Code Code(official)

Abstract

Many of the leading approaches in language modeling introduce novel, complex and specialized architectures. We take existing state-of-the-art word level language models based on LSTMs and QRNNs and extend them to both larger vocabularies as well as character-level granularity. When properly tuned, LSTMs and QRNNs achieve state-of-the-art results on character-level (Penn Treebank, enwik8) and word-level (WikiText-103) datasets, respectively. Results are obtained in only 12 hours (WikiText-103) to 2 days (enwik8) using a single modern GPU.

Results

Task	Dataset	Metric	Value	Model
Language Modelling	Penn Treebank (Character Level)	Bit per Character (BPC)	1.175	3-layer AWD-LSTM
Language Modelling	Penn Treebank (Character Level)	Bit per Character (BPC)	1.187	6-layer QRNN
Language Modelling	WikiText-103	Test perplexity	33	4 layer QRNN
Language Modelling	WikiText-103	Validation perplexity	32	4 layer QRNN
Language Modelling	Hutter Prize	Bit per Character (BPC)	1.232	3-layer AWD-LSTM
Language Modelling	enwik8	Bit per Character (BPC)	1.232	AWD-LSTM (3 layers)

Related Papers

Visual-Language Model Knowledge Distillation Method for Image Quality Assessment2025-07-21 Making Language Model a Hierarchical Classifier and Generator2025-07-17 VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning2025-07-17 The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations2025-07-17 Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities2025-07-17 Assay2Mol: large language model-based drug design using BioAssay context2025-07-16 Describe Anything Model for Visual Question Answering on Text-rich Images2025-07-16 InstructFLIP: Exploring Unified Vision-Language Model for Face Anti-spoofing2025-07-16