BRIO: Bringing Order to Abstractive Summarization

Yixin Liu, PengFei Liu, Dragomir Radev, Graham Neubig

2022-03-31ACL 2022 5Abstractive Text Summarization Text Summarization

Abstract

Abstractive summarization models are commonly trained using maximum likelihood estimation, which assumes a deterministic (one-point) target distribution in which an ideal model will assign all the probability mass to the reference summary. This assumption may lead to performance degradation during inference, where the model needs to compare several system-generated (candidate) summaries that have deviated from the reference summary. To address this problem, we propose a novel training paradigm which assumes a non-deterministic distribution so that different candidate summaries are assigned probability mass according to their quality. Our method achieves a new state-of-the-art result on the CNN/DailyMail (47.78 ROUGE-1) and XSum (49.07 ROUGE-1) datasets. Further analysis also shows that our model can estimate probabilities of candidate summaries that are more correlated with their level of quality.

Results

Task	Dataset	Metric	Value	Model
Text Summarization	X-Sum	ROUGE-1	49.07	BRIO
Text Summarization	X-Sum	ROUGE-2	25.59	BRIO
Text Summarization	X-Sum	ROUGE-3	40.4	BRIO
Text Summarization	CNN / Daily Mail	ROUGE-1	47.78	BRIO
Text Summarization	CNN / Daily Mail	ROUGE-2	23.55	BRIO
Text Summarization	CNN / Daily Mail	ROUGE-L	44.57	BRIO
Abstractive Text Summarization	CNN / Daily Mail	ROUGE-1	47.78	BRIO
Abstractive Text Summarization	CNN / Daily Mail	ROUGE-2	23.55	BRIO
Abstractive Text Summarization	CNN / Daily Mail	ROUGE-L	44.57	BRIO

Related Papers

LRCTI: A Large Language Model-Based Framework for Multi-Step Evidence Retrieval and Reasoning in Cyber Threat Intelligence Credibility Verification2025-07-15 On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention2025-06-11 Improving large language models with concept-aware fine-tuning2025-06-09 Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs2025-06-03 ARC: Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs2025-05-29 MaCP: Minimal yet Mighty Adaptation via Hierarchical Cosine Projection2025-05-29 APE: A Data-Centric Benchmark for Efficient LLM Adaptation in Text Summarization2025-05-26 FiLLM -- A Filipino-optimized Large Language Model based on Southeast Asia Large Language Model (SEALLM)2025-05-25