PRIMERA: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization

Wen Xiao, Iz Beltagy, Giuseppe Carenini, Arman Cohan

2021-10-16ACL 2022 5Multi-Document Summarization Abstractive Text Summarization Text Summarization Document Summarization

Paper PDF Code Code Code(official)

Abstract

We introduce PRIMERA, a pre-trained model for multi-document representation with a focus on summarization that reduces the need for dataset-specific architectures and large amounts of fine-tuning labeled data. PRIMERA uses our newly proposed pre-training objective designed to teach the model to connect and aggregate information across documents. It also uses efficient encoder-decoder transformers to simplify the processing of concatenated input documents. With extensive experiments on 6 multi-document summarization datasets from 3 different domains on zero-shot, few-shot and full-supervised settings, PRIMERA outperforms current state-of-the-art dataset-specific and pre-trained models on most of these settings with large margins. The code and pre-trained models can be found at \url{https://github.com/allenai/PRIMER}.

Results

Task	Dataset	Metric	Value	Model
Text Generation	Multi-News	ROUGE-1	49.9	PRIMER
Text Generation	Multi-News	ROUGE-2	21.1	PRIMER
Text Generation	Multi-News	ROUGE-L	25.9	PRIMER
Text Generation	WCEP	ROUGE-1	46.1	PRIMER
Text Generation	WCEP	ROUGE-2	25.2	PRIMER
Text Generation	WCEP	ROUGE-L	37.9	PRIMER
Text Summarization	arXiv Summarization Dataset	ROUGE-1	47.6	PRIMER
Text Summarization	arXiv Summarization Dataset	ROUGE-2	20.8	PRIMER
Text Summarization	arXiv Summarization Dataset	ROUGE-L	42.6	PRIMER
Text Summarization	Multi-News	ROUGE-1	49.9	PRIMER
Text Summarization	Multi-News	ROUGE-2	21.1	PRIMER
Text Summarization	Multi-News	ROUGE-L	25.9	PRIMER
Text Summarization	WCEP	ROUGE-1	46.1	PRIMER
Text Summarization	WCEP	ROUGE-2	25.2	PRIMER
Text Summarization	WCEP	ROUGE-L	37.9	PRIMER

Related Papers

LRCTI: A Large Language Model-Based Framework for Multi-Step Evidence Retrieval and Reasoning in Cyber Threat Intelligence Credibility Verification2025-07-15 GenerationPrograms: Fine-grained Attribution with Executable Programs2025-06-17 Arctic Long Sequence Training: Scalable And Efficient Training For Multi-Million Token Sequences2025-06-16 On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention2025-06-11 Improving Fairness of Large Language Models in Multi-document Summarization2025-06-09 Improving large language models with concept-aware fine-tuning2025-06-09 Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs2025-06-03 ARC: Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs2025-05-29