DEPLAIN: A German Parallel Corpus with Intralingual Translations into Plain Language for Sentence and Document Simplification

Regina Stodden, Omar Momen, Laura Kallmeyer

2023-05-30Text Simplification 2k

Abstract

Text simplification is an intralingual translation task in which documents, or sentences of a complex source text are simplified for a target audience. The success of automatic text simplification systems is highly dependent on the quality of parallel data used for training and evaluation. To advance sentence simplification and document simplification in German, this paper presents DEplain, a new dataset of parallel, professionally written and manually aligned simplifications in plain German ("plain DE" or in German: "Einfache Sprache"). DEplain consists of a news domain (approx. 500 document pairs, approx. 13k sentence pairs) and a web-domain corpus (approx. 150 aligned documents, approx. 2k aligned sentence pairs). In addition, we are building a web harvester and experimenting with automatic alignment methods to facilitate the integration of non-aligned and to be published parallel documents. Using this approach, we are dynamically increasing the web domain corpus, so it is currently extended to approx. 750 document pairs and approx. 3.5k aligned sentence pairs. We show that using DEplain to train a transformer-based seq2seq text simplification model can achieve promising results. We make available the corpus, the adapted alignment methods for German, the web harvester and the trained models here: https://github.com/rstodden/DEPlain.

Results

Task	Dataset	Metric	Value	Model
Text Simplification	DEplain-web-doc	BLEU	23.37	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-web-doc	BertScore (Precision)	0.445	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-web-doc	FRE (Flesch Reading Ease)	57.95	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-web-doc	SARI (EASSE>=0.2.1)	49.745	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-web-doc	BLEU	23.282	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-web-doc	BertScore (Precision)	0.462	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-web-doc	FRE (Flesch Reading Ease)	63.5	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-web-doc	SARI (EASSE>=0.2.1)	49.584	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-web-doc	BLEU	21.9	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-web-doc	BertScore (Precision)	0.377	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-web-doc	FRE (Flesch Reading Ease)	64.7	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-web-doc	SARI (EASSE>=0.2.1)	43.087	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-web-sent	BLEU	17.88	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-web-sent	BertScore (Precision)	0.436	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-web-sent	FRE (Flesch Reading Ease)	65.249	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-web-sent	SARI (EASSE>=0.2.1)	34.828	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-web-sent	BLEU	15.727	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-web-sent	BertScore (Precision)	0.413	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-web-sent	FRE (Flesch Reading Ease)	64.516	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-web-sent	SARI (EASSE>=0.2.1)	30.867	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-sent	BLEU	28.506	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-APA-sent	BertScore (Precision)	0.64	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-APA-sent	FRE (Flesch Reading Ease)	62.669	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-APA-sent	SARI (EASSE>=0.2.1)	34.904	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-APA-sent	BLEU	28.25	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-sent	BertScore (Precision)	0.639	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-sent	FRE (Flesch Reading Ease)	63.072	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-sent	SARI (EASSE>=0.2.1)	34.818	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-doc	BLEU	38.136	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-APA-doc	BertScore (Precision)	0.598	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-APA-doc	FRE (Flesch Reading Ease)	65.4	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-APA-doc	SARI (EASSE>=0.2.1)	44.56	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-APA-doc	BLEU	36.449	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-APA-doc	BertScore (Precision)	0.589	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-APA-doc	FRE (Flesch Reading Ease)	65.4	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-APA-doc	SARI (EASSE>=0.2.1)	42.862	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-APA-doc	BLEU	12.913	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-APA-doc	BertScore (Precision)	0.475	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-APA-doc	FRE (Flesch Reading Ease)	59.55	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-APA-doc	SARI (EASSE>=0.2.1)	35.02	long-mBART (trained on DEplain-web-doc)

Abstract

Results

Task	Dataset	Metric	Value	Model
Text Simplification	DEplain-web-doc	BLEU	23.37	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-web-doc	BertScore (Precision)	0.445	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-web-doc	FRE (Flesch Reading Ease)	57.95	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-web-doc	SARI (EASSE>=0.2.1)	49.745	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-web-doc	BLEU	23.282	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-web-doc	BertScore (Precision)	0.462	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-web-doc	FRE (Flesch Reading Ease)	63.5	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-web-doc	SARI (EASSE>=0.2.1)	49.584	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-web-doc	BLEU	21.9	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-web-doc	BertScore (Precision)	0.377	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-web-doc	FRE (Flesch Reading Ease)	64.7	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-web-doc	SARI (EASSE>=0.2.1)	43.087	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-web-sent	BLEU	17.88	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-web-sent	BertScore (Precision)	0.436	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-web-sent	FRE (Flesch Reading Ease)	65.249	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-web-sent	SARI (EASSE>=0.2.1)	34.828	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-web-sent	BLEU	15.727	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-web-sent	BertScore (Precision)	0.413	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-web-sent	FRE (Flesch Reading Ease)	64.516	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-web-sent	SARI (EASSE>=0.2.1)	30.867	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-sent	BLEU	28.506	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-APA-sent	BertScore (Precision)	0.64	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-APA-sent	FRE (Flesch Reading Ease)	62.669	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-APA-sent	SARI (EASSE>=0.2.1)	34.904	mBART (trained on DEplain-APA-sent & DEplain-web-sent)
Text Simplification	DEplain-APA-sent	BLEU	28.25	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-sent	BertScore (Precision)	0.639	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-sent	FRE (Flesch Reading Ease)	63.072	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-sent	SARI (EASSE>=0.2.1)	34.818	mBART (trained on DEplain-APA-sent)
Text Simplification	DEplain-APA-doc	BLEU	38.136	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-APA-doc	BertScore (Precision)	0.598	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-APA-doc	FRE (Flesch Reading Ease)	65.4	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-APA-doc	SARI (EASSE>=0.2.1)	44.56	long-mBART (trained on DEplain-APA-doc)
Text Simplification	DEplain-APA-doc	BLEU	36.449	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-APA-doc	BertScore (Precision)	0.589	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-APA-doc	FRE (Flesch Reading Ease)	65.4	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-APA-doc	SARI (EASSE>=0.2.1)	42.862	long-mBART (trained on DEplain-APA-doc & DEplain-web-doc)
Text Simplification	DEplain-APA-doc	BLEU	12.913	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-APA-doc	BertScore (Precision)	0.475	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-APA-doc	FRE (Flesch Reading Ease)	59.55	long-mBART (trained on DEplain-web-doc)
Text Simplification	DEplain-APA-doc	SARI (EASSE>=0.2.1)	35.02	long-mBART (trained on DEplain-web-doc)

DEPLAIN: A German Parallel Corpus with Intralingual Translations into Plain Language for Sentence and Document Simplification

Abstract

Results

Related Papers

DEPLAIN: A German Parallel Corpus with Intralingual Translations into Plain Language for Sentence and Document Simplification

Abstract

Results

Related Papers