A Discourse-Aware Attention Model for Abstractive Summarization of Long Documents

Arman Cohan, Franck Dernoncourt, Doo Soon Kim, Trung Bui, Seokhwan Kim, Walter Chang, Nazli Goharian

2018-04-16NAACL 2018 6Unsupervised Extractive Summarization Abstractive Text Summarization Text Summarization

Abstract

Neural abstractive summarization models have led to promising results in summarizing relatively short documents. We propose the first model for abstractive summarization of single, longer-form documents (e.g., research papers). Our approach consists of a new hierarchical encoder that models the discourse structure of a document, and an attentive discourse-aware decoder to generate the summary. Empirical results on two large-scale datasets of scientific papers show that our model significantly outperforms state-of-the-art models.

Results

Task	Dataset	Metric	Value	Model
Summarization	arXiv Summarization Dataset	ROUGE-1	33.85	LexRank
Summarization	arXiv Summarization Dataset	ROUGE-2	10.73	LexRank
Summarization	arXiv Summarization Dataset	ROUGE-L	28.99	LexRank
Summarization	arXiv Summarization Dataset	ROUGE-1	29.91	LSA
Summarization	arXiv Summarization Dataset	ROUGE-2	7.42	LSA
Summarization	arXiv Summarization Dataset	ROUGE-L	25.67	LSA
Summarization	arXiv Summarization Dataset	ROUGE-1	29.47	SumBasic
Summarization	arXiv Summarization Dataset	ROUGE-2	6.95	SumBasic
Summarization	arXiv Summarization Dataset	ROUGE-L	26.3	SumBasic
Summarization	Pubmed	ROUGE-1	39.19	LexRank
Summarization	Pubmed	ROUGE-2	13.89	LexRank
Summarization	Pubmed	ROUGE-L	34.59	LexRank
Summarization	Pubmed	ROUGE-1	37.15	SumBasic
Summarization	Pubmed	ROUGE-2	11.36	SumBasic
Summarization	Pubmed	ROUGE-L	33.43	SumBasic
Summarization	Pubmed	ROUGE-1	33.89	LSA
Summarization	Pubmed	ROUGE-2	9.93	LSA
Summarization	Pubmed	ROUGE-L	29.7	LSA
Text Summarization	Arxiv HEP-TH citation graph	ROUGE-1	35.8	Discourse
Text Summarization	Pubmed	ROUGE-1	38.93	Discourse

Related Papers

LRCTI: A Large Language Model-Based Framework for Multi-Step Evidence Retrieval and Reasoning in Cyber Threat Intelligence Credibility Verification2025-07-15 On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention2025-06-11 Improving large language models with concept-aware fine-tuning2025-06-09 Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs2025-06-03 ARC: Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs2025-05-29 MaCP: Minimal yet Mighty Adaptation via Hierarchical Cosine Projection2025-05-29 APE: A Data-Centric Benchmark for Efficient LLM Adaptation in Text Summarization2025-05-26 FiLLM -- A Filipino-optimized Large Language Model based on Southeast Asia Large Language Model (SEALLM)2025-05-25