KGI

Reported on 10 benchmarks across 2 tasks

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing10 results

Fact VerificationonKILT: FEVER
Accuracy
85.58
best: 89.55 (Re2G)
Fact VerificationonKILT: FEVER
KILT-AC
64.41
best: 78.53 (Re2G)
Fact VerificationonKILT: FEVER
R-Prec
75.6
best: 88.92 (Re2G)
Fact VerificationonKILT: FEVER
Recall@5
84.95
best: 92.52 (Re2G)
Open-Domain DialogonKILT: Wizard of Wikipedia
F1
18.57
best: 19.19 (Hindsight)
Open-Domain DialogonKILT: Wizard of Wikipedia
KILT-F1
11.79
best: 13.39 (Hindsight)
Open-Domain DialogonKILT: Wizard of Wikipedia
KILT-RL
10.36
best: 11.92 (Hindsight)
Open-Domain DialogonKILT: Wizard of Wikipedia
R-Prec
55.37
best: 64.79 (chriskuei)
Open-Domain DialogonKILT: Wizard of Wikipedia
ROUGE-L
16.36
best: 17.06 (Hindsight)
Open-Domain DialogonKILT: Wizard of Wikipedia
Recall@5
78.45
best: 82.15 (chriskuei)