KILT: a Benchmark for Knowledge Intensive Language Tasks

Fabio Petroni, Aleksandra Piktus, Angela Fan, Patrick Lewis, Majid Yazdani, Nicola De Cao, James Thorne, Yacine Jernite, Vladimir Karpukhin, Jean Maillard, Vassilis Plachouras, Tim Rocktäschel, Sebastian Riedel

2020-09-04NAACL 2021 4Question Answering Entity Linking Fact Checking Slot Filling Open-Domain Question Answering Open-Domain Dialog Fact Verification

Paper PDF Code Code(official)Code

Abstract

Challenging problems such as open-domain question answering, fact checking, slot filling and entity linking require access to large, external knowledge sources. While some models do well on individual tasks, developing general models is difficult as each task might require computationally expensive indexing of custom knowledge sources, in addition to dedicated infrastructure. To catalyze research on models that condition on specific information in large textual resources, we present a benchmark for knowledge-intensive language tasks (KILT). All tasks in KILT are grounded in the same snapshot of Wikipedia, reducing engineering turnaround through the re-use of components, as well as accelerating research into task-agnostic memory architectures. We test both task-specific and general baselines, evaluating downstream performance in addition to the ability of the models to provide provenance. We find that a shared dense vector index coupled with a seq2seq model is a strong baseline, outperforming more tailor-made approaches for fact checking, open-domain question answering and dialogue, and yielding competitive results on entity linking and slot filling, by generating disambiguated text. KILT data and code are available at https://github.com/facebookresearch/KILT.

Results

Task	Dataset	Metric	Value	Model
Question Answering	KILT: ELI5	F1	16.1	T5-base
Question Answering	KILT: ELI5	Rouge-L	19.08	T5-base
Question Answering	KILT: ELI5	F1	17.88	BART+DPR
Question Answering	KILT: ELI5	Rouge-L	17.41	BART+DPR
Question Answering	KILT: ELI5	F1	14.51	RAG
Question Answering	KILT: ELI5	Rouge-L	14.05	RAG
Question Answering	KILT: TriviaQA	EM	18.11	T5-base
Question Answering	KILT: TriviaQA	F1	27.83	T5-base
Question Answering	KILT: Natural Questions	EM	19.6	T5-base
Question Answering	KILT: Natural Questions	F1	27.73	T5-base
Question Answering	KILT: HotpotQA	EM	12.64	T5-base
Question Answering	KILT: HotpotQA	F1	19.57	T5-base
Question Answering	KILT: ELI5	F1	14.51	RAG
Question Answering	KILT: ELI5	ROUGE-L	14.05	RAG
Question Answering	KILT: ELI5	F1	16.1	T5-base
Question Answering	KILT: ELI5	ROUGE-L	19.08	T5-base
Entity Linking	KILT: WNED-WIKI	Accuracy	47.13	T5-base
Entity Linking	KILT: WNED-WIKI	KILT-AC	47.13	T5-base
Entity Linking	KILT: WNED-WIKI	R-Prec	47.13	T5-base
Entity Linking	KILT: WNED-WIKI	Recall@5	47.13	T5-base
Entity Linking	KILT: AIDA-YAGO2	Accuracy	74.05	T5-base
Entity Linking	KILT: AIDA-YAGO2	KILT-AC	74.05	T5-base
Entity Linking	KILT: AIDA-YAGO2	R-Prec	74.05	T5-base
Entity Linking	KILT: AIDA-YAGO2	Recall@5	74.05	T5-base
Entity Linking	KILT: WNED-CWEB	Accuracy	49.29	T5-base
Entity Linking	KILT: WNED-CWEB	KILT-AC	49.29	T5-base
Entity Linking	KILT: WNED-CWEB	R-Prec	49.29	T5-base
Entity Linking	KILT: WNED-CWEB	Recall@5	49.29	T5-base
Slot Filling	KILT: T-REx	Accuracy	43.56	T5-base
Slot Filling	KILT: T-REx	F1	50.61	T5-base
Slot Filling	KILT: Zero Shot RE	Accuracy	9.02	T5-base
Slot Filling	KILT: Zero Shot RE	F1	13.52	T5-base
Fact Verification	KILT: FEVER	Accuracy	86.31	RAG
Fact Verification	KILT: FEVER	KILT-AC	53.45	RAG
Fact Verification	KILT: FEVER	R-Prec	61.94	RAG
Fact Verification	KILT: FEVER	Recall@5	75.55	RAG
Fact Verification	KILT: FEVER	Accuracy	76.3	T5-base
Open-Domain Question Answering	KILT: TriviaQA	EM	18.11	T5-base
Open-Domain Question Answering	KILT: TriviaQA	F1	27.83	T5-base
Open-Domain Question Answering	KILT: Natural Questions	EM	19.6	T5-base
Open-Domain Question Answering	KILT: Natural Questions	F1	27.73	T5-base
Open-Domain Question Answering	KILT: HotpotQA	EM	12.64	T5-base
Open-Domain Question Answering	KILT: HotpotQA	F1	19.57	T5-base
Open-Domain Question Answering	KILT: ELI5	F1	14.51	RAG
Open-Domain Question Answering	KILT: ELI5	ROUGE-L	14.05	RAG
Open-Domain Question Answering	KILT: ELI5	F1	16.1	T5-base
Open-Domain Question Answering	KILT: ELI5	ROUGE-L	19.08	T5-base
Open-Domain Dialog	KILT: Wizard of Wikipedia	F1	13.53	T5-base
Open-Domain Dialog	KILT: Wizard of Wikipedia	ROUGE-L	12.4	T5-base

KILT: a Benchmark for Knowledge Intensive Language Tasks

Abstract

Results

Related Papers

KILT: a Benchmark for Knowledge Intensive Language Tasks

Abstract

Results

Related Papers