Agent-as-Judge for Factual Summarization of Long Narratives

Yeonseok Jeong, Minsoo Kim, Seung-won Hwang, Byung-Hak Kim

2025-01-17Long-Form Narrative Summarization

Abstract

Large Language Models (LLMs) have demonstrated near-human performance in summarization tasks based on traditional metrics such as ROUGE and BERTScore. However, these metrics do not adequately capture critical aspects of summarization quality, such as factual accuracy, particularly for long narratives (>100K tokens). Recent advances, such as LLM-as-a-Judge, address the limitations of metrics based on lexical similarity but still exhibit factual inconsistencies, especially in understanding character relationships and states. In this work, we introduce NarrativeFactScore, a novel "Agent-as-a-Judge" framework for evaluating and refining summaries. By leveraging a Character Knowledge Graph (CKG) extracted from input and generated summaries, NarrativeFactScore assesses the factual consistency and provides actionable guidance for refinement, such as identifying missing or erroneous facts. We demonstrate the effectiveness of NarrativeFactScore through a detailed workflow illustration and extensive validation on widely adopted benchmarks, achieving superior performance compared to competitive methods. Our results highlight the potential of agent-driven evaluation systems to improve the factual reliability of LLM-generated summaries.

Results

Task	Dataset	Metric	Value	Model
Text Summarization	MENSA	BERTScore (F1)	60.22	Hierarchically Merging and Agent Refinement
Text Summarization	MENSA	ROUGE-1	31.31	Hierarchically Merging and Agent Refinement
Text Summarization	MENSA	ROUGE-2	8.81	Hierarchically Merging and Agent Refinement
Text Summarization	MENSA	ROUGE-L	18.62	Hierarchically Merging and Agent Refinement
Text Summarization	MovieSum	BERTScore (F1)	59.32	Hierarchically Merging and Agent Refinement
Text Summarization	MovieSum	ROUGE-1	31.31	Hierarchically Merging and Agent Refinement
Text Summarization	MovieSum	ROUGE-2	8.81	Hierarchically Merging and Agent Refinement
Text Summarization	MovieSum	ROUGE-L	18.62	Hierarchically Merging and Agent Refinement

Abstract

Results

Task	Dataset	Metric	Value	Model
Text Summarization	MENSA	BERTScore (F1)	60.22	Hierarchically Merging and Agent Refinement
Text Summarization	MENSA	ROUGE-1	31.31	Hierarchically Merging and Agent Refinement
Text Summarization	MENSA	ROUGE-2	8.81	Hierarchically Merging and Agent Refinement
Text Summarization	MENSA	ROUGE-L	18.62	Hierarchically Merging and Agent Refinement
Text Summarization	MovieSum	BERTScore (F1)	59.32	Hierarchically Merging and Agent Refinement
Text Summarization	MovieSum	ROUGE-1	31.31	Hierarchically Merging and Agent Refinement
Text Summarization	MovieSum	ROUGE-2	8.81	Hierarchically Merging and Agent Refinement
Text Summarization	MovieSum	ROUGE-L	18.62	Hierarchically Merging and Agent Refinement

Agent-as-Judge for Factual Summarization of Long Narratives

Abstract

Results

Related Papers

Agent-as-Judge for Factual Summarization of Long Narratives

Abstract

Results

Related Papers