Hierarchical Learning for Generation with Long Source Sequences

Tobias Rohde, Xiaoxia Wu, Yinhan Liu

2021-04-15Reading Comprehension Machine Translation Text Summarization Document Summarization Document Level Machine Translation Translation Document Translation General Classification

Paper PDF

Abstract

One of the challenges for current sequence to sequence (seq2seq) models is processing long sequences, such as those in summarization and document level machine translation tasks. These tasks require the model to reason at the token level as well as the sentence and paragraph level. We design and study a new Hierarchical Attention Transformer-based architecture (HAT) that outperforms standard Transformers on several sequence to sequence tasks. Furthermore, our model achieves state-of-the-art ROUGE scores on four summarization tasks, including PubMed, arXiv, CNN/DM, SAMSum, and AMI. Our model outperforms document-level machine translation baseline on the WMT20 English to German translation task. We investigate what the hierarchical layers learn by visualizing the hierarchical encoder-decoder attention. Finally, we study hierarchical learning on encoder-only pre-training and analyze its performance on classification tasks.

Results

Task	Dataset	Metric	Value	Model
Reading Comprehension	RACE	Accuracy	67.3	HAT (Encoder)
Text Summarization	SAMSum	ROUGE-1	53.01	HAT-CNNDM
Text Summarization	SAMSum	ROUGE-2	28.27	HAT-CNNDM
Text Summarization	SAMSum	ROUGE-L	48.84	HAT-CNNDM RL
Text Summarization	Arxiv HEP-TH citation graph	ROUGE-1	46.74	HAT-BART
Text Summarization	Arxiv HEP-TH citation graph	ROUGE-2	19.19	HAT-BART
Text Summarization	Arxiv HEP-TH citation graph	ROUGE-L	42.2	HAT-BART
Text Summarization	AMI	ROUGE-1	52.27	HAT-CNNDM
Text Summarization	AMI	ROUGE-2	20.15	HAT-CNNDM
Text Summarization	AMI	ROUGE-L	50.57	HAT-CNNDM
Text Summarization	Pubmed	ROUGE-1	48.25	HAT-BART
Text Summarization	Pubmed	ROUGE-2	21.35	HAT-BART
Text Summarization	Pubmed	ROUGE-L	36.69	HAT-BART
Text Summarization	X-Sum	ROUGE-1	45.92	HAT-BART
Text Summarization	X-Sum	ROUGE-2	22.79	HAT-BART
Text Summarization	CNN / Daily Mail	ROUGE-1	44.48	HAT-BART
Text Summarization	CNN / Daily Mail	ROUGE-2	21.31	HAT-BART
Text Summarization	CNN / Daily Mail	ROUGE-L	41.52	HAT-BART
Document Summarization	CNN / Daily Mail	ROUGE-1	44.48	HAT-BART
Document Summarization	CNN / Daily Mail	ROUGE-2	21.31	HAT-BART
Document Summarization	CNN / Daily Mail	ROUGE-L	41.52	HAT-BART

Hierarchical Learning for Generation with Long Source Sequences

Abstract

Results

Related Papers

Hierarchical Learning for Generation with Long Source Sequences

Abstract

Results

Related Papers