Adaptive Attention Span in Transformers

Sainbayar Sukhbaatar, Edouard Grave, Piotr Bojanowski, Armand Joulin

2019-05-19ACL 2019 7Language Modelling

Paper PDF Code Code Code Code(official)Code Code Code Code

Abstract

We propose a novel self-attention mechanism that can learn its optimal attention span. This allows us to extend significantly the maximum context size used in Transformer, while maintaining control over their memory footprint and computational time. We show the effectiveness of our approach on the task of character level language modeling, where we achieve state-of-the-art performances on text8 and enwiki8 by using a maximum context of 8k characters.

Results

Task	Dataset	Metric	Value	Model
Language Modelling	Text8	Bit per Character (BPC)	1.07	24L Transformer + 8K adaptive span
Language Modelling	Text8	Bit per Character (BPC)	1.11	12L Transformer + 8K adaptive span
Language Modelling	enwik8	Bit per Character (BPC)	0.98	Transformer (24 layers, 8k adaptive span)
Language Modelling	enwik8	Bit per Character (BPC)	1.02	Transformer (12 layers, 8k adaptive span)

Related Papers

Visual-Language Model Knowledge Distillation Method for Image Quality Assessment2025-07-21 Making Language Model a Hierarchical Classifier and Generator2025-07-17 VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning2025-07-17 The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations2025-07-17 Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities2025-07-17 Assay2Mol: large language model-based drug design using BioAssay context2025-07-16 Describe Anything Model for Visual Question Answering on Text-rich Images2025-07-16 InstructFLIP: Exploring Unified Vision-Language Model for Face Anti-spoofing2025-07-16