Calibrating Sequence likelihood Improves Conditional Language Generation

Yao Zhao, Misha Khalman, Rishabh Joshi, Shashi Narayan, Mohammad Saleh, Peter J. Liu

2022-09-30Question Answering Data-to-Text Generation Text Generation Abstractive Text Summarization Text Summarization Question Generation Blocking

Paper PDF

Abstract

Conditional language models are predominantly trained with maximum likelihood estimation (MLE), giving probability mass to sparsely observed target sequences. While MLE trained models assign high probability to plausible sequences given the context, the model probabilities often do not accurately rank-order generated sequences by quality. This has been empirically observed in beam search decoding as output quality degrading with large beam sizes, and decoding strategies benefiting from heuristics such as length normalization and repetition-blocking. In this work, we introduce sequence likelihood calibration (SLiC) where the likelihood of model generated sequences are calibrated to better align with reference sequences in the model's latent space. With SLiC, decoding heuristics become unnecessary and decoding candidates' quality significantly improves regardless of the decoding method. Furthermore, SLiC shows no sign of diminishing returns with model scale, and presents alternative ways to improve quality with limited training and inference budgets. With SLiC, we exceed or match SOTA results on a wide range of generation tasks spanning abstractive summarization, question generation, abstractive question answering and data-to-text generation, even with modest-sized models.

Results

Task	Dataset	Metric	Value	Model
Text Summarization	Reddit TIFU	ROUGE-1	32.03	PEGASUS 2B + SLiC
Text Summarization	Reddit TIFU	ROUGE-2	11.13	PEGASUS 2B + SLiC
Text Summarization	Reddit TIFU	ROUGE-L	25.51	PEGASUS 2B + SLiC
Text Summarization	SAMSum	ROUGE-1	54.37	PEGASUS 2B + SliC
Text Summarization	SAMSum	ROUGE-2	29.88	PEGASUS 2B + SliC
Text Summarization	SAMSum	ROUGE-L	45.89	PEGASUS 2B + SliC
Text Summarization	CNN / Daily Mail	ROUGE-1	47.36	Pegasus
Text Summarization	CNN / Daily Mail	ROUGE-2	24.02	Pegasus
Text Summarization	CNN / Daily Mail	ROUGE-L	44.45	Pegasus
Abstractive Text Summarization	CNN / Daily Mail	ROUGE-1	47.36	Pegasus
Abstractive Text Summarization	CNN / Daily Mail	ROUGE-2	24.02	Pegasus
Abstractive Text Summarization	CNN / Daily Mail	ROUGE-L	44.45	Pegasus

Calibrating Sequence likelihood Improves Conditional Language Generation

Abstract

Results

Related Papers

Calibrating Sequence likelihood Improves Conditional Language Generation

Abstract

Results

Related Papers