Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/RAG

RAG

Reported on 87 benchmarks across 6 tasks · 2 papers · 6 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing88 results

Fact VerificationonKILT: FEVER
Accuracy· 2020-09-04
86.31
best: 89.55 (Re2G)
SOTA
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Fact VerificationonKILT: FEVER
KILT-AC· 2020-09-04
53.45
best: 78.53 (Re2G)
SOTA
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Fact VerificationonKILT: FEVER
R-Prec· 2020-09-04
61.94
best: 88.92 (Re2G)
SOTA
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Fact VerificationonKILT: FEVER
Recall@5· 2020-09-04
75.55
best: 92.52 (Re2G)
SOTA
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Question AnsweringonNatural Questions
EM· 2020-05-22
44.5
best: 64 (Atlas (full, Wiki-dec-2018 index))
SOTA
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks arXiv:2005.11401
Question AnsweringonWebQuestions
EM· 2020-05-22
45.2
best: 84.6 (PoG-GPT4 (Tan et al., 2024))
SOTA
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks arXiv:2005.11401
Question AnsweringonKILT: ELI5
F1· 2020-09-04
14.51
best: 27.13 (somebody)
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Question AnsweringonKILT: ELI5
Rouge-L· 2020-09-04
14.05
best: 27.13 (RBG)
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Question AnsweringonKILT: ELI5
F1· 2020-09-04
14.51
best: 27.13 (somebody)
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Question AnsweringonKILT: ELI5
ROUGE-L· 2020-09-04
14.05
best: 24.53 (somebody)
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Open-Domain Question AnsweringonKILT: ELI5
F1· 2020-09-04
14.51
best: 27.13 (somebody)
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Open-Domain Question AnsweringonKILT: ELI5
ROUGE-L· 2020-09-04
14.05
best: 24.53 (somebody)
KILT: a Benchmark for Knowledge Intensive Language Tasks arXiv:2009.02252
Question AnsweringonTriviaQA
EM· 2020-05-22
56.1
best: 87.5 (Claude 2 (few-shot, k=5))
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks arXiv:2005.11401
Fact VerificationonFEVER
Accuracy· uses extra data· 2020-05-22
72.5
best: 79.47 (ProoFVer-SB)
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks arXiv:2005.11401
Question AnsweringonKILT: TriviaQA
EM
71.27
best: 76.27 (Re2G)
Question AnsweringonKILT: TriviaQA
F1
75.88
best: 81.4 (Re2G)
Question AnsweringonKILT: TriviaQA
KILT-EM
38.13
best: 57.91 (Re2G)
Question AnsweringonKILT: TriviaQA
KILT-F1
40.15
best: 61.78 (Re2G)
Question AnsweringonKILT: TriviaQA
R-Prec
48.68
best: 72.68 (Re2G)
Question AnsweringonKILT: TriviaQA
Recall@5
57.13
best: 76.36 (intersect)
Question AnsweringonKILT: Natural Questions
EM
44.39
best: 53.74 (intersect)
Question AnsweringonKILT: Natural Questions
F1
52.35
best: 62.24 (intersect)
Question AnsweringonKILT: Natural Questions
KILT-EM
32.69
best: 43.56 (Re2G)
Question AnsweringonKILT: Natural Questions
KILT-F1
37.91
best: 49.8 (Re2G)
Question AnsweringonKILT: Natural Questions
R-Prec
59.49
best: 70.78 (Re2G)
Question AnsweringonKILT: Natural Questions
Recall@5
67.06
best: 76.63 (Re2G)
Question AnsweringonKILT: HotpotQA
EM
26.97
best: 40.46 (intersect)
Question AnsweringonKILT: HotpotQA
F1
36.03
best: 51.44 (intersect)
Question AnsweringonKILT: HotpotQA
KILT-EM
3.21
best: 18.06 (intersect)
Question AnsweringonKILT: HotpotQA
KILT-F1
4.1
best: 21.42 (intersect)
Question AnsweringonKILT: HotpotQA
R-Prec
30.59
best: 58.83 (intersect)
Question AnsweringonKILT: HotpotQA
Recall@5
12.59
best: 51.03 (intersect)
Question AnsweringonKILT: ELI5
KILT-F1
1.79
best: 3 (somebody)
Question AnsweringonKILT: ELI5
KILT-RL
1.69
best: 2.62 (somebody)
Question AnsweringonKILT: ELI5
R-Prec
11
best: 18.33 (TABi)
Question AnsweringonKILT: ELI5
Recall@5
22.92
best: 28.21 (TABi)
Entity LinkingonKILT: WNED-WIKI
Accuracy
48.07
best: 87.44 (GENRE)
Entity LinkingonKILT: WNED-WIKI
KILT-AC
48.07
best: 87.44 (GENRE)
Entity LinkingonKILT: WNED-WIKI
R-Prec
48.07
best: 88.12 (chriskuei)
Entity LinkingonKILT: WNED-WIKI
Recall@5
48.07
best: 95.62 (chriskuei)
Entity LinkingonKILT: AIDA-YAGO2
Accuracy
72.62
best: 89.85 (GENRE)
Entity LinkingonKILT: AIDA-YAGO2
KILT-AC
72.62
best: 89.85 (GENRE)
Entity LinkingonKILT: AIDA-YAGO2
R-Prec
72.62
best: 89.98 (chriskuei)
Entity LinkingonKILT: AIDA-YAGO2
Recall@5
72.62
best: 94.85 (chriskuei)
Entity LinkingonKILT: WNED-CWEB
Accuracy
47.61
best: 71.22 (GENRE)
Entity LinkingonKILT: WNED-CWEB
KILT-AC
47.61
best: 71.22 (GENRE)
Entity LinkingonKILT: WNED-CWEB
R-Prec
47.61
best: 71.22 (GENRE)
Entity LinkingonKILT: WNED-CWEB
Recall@5
47.61
best: 81.76 (BLINK)
Slot FillingonKILT: T-REx
Accuracy
59.2
best: 87.68 (Re2G)
Slot FillingonKILT: T-REx
F1
62.96
best: 89.93 (Re2G)
Slot FillingonKILT: T-REx
KILT-AC
23.12
best: 75.84 (Re2G)
Slot FillingonKILT: T-REx
KILT-F1
23.94
best: 77.05 (Re2G)
Slot FillingonKILT: T-REx
R-Prec
28.68
best: 81.9 (TABi)
Slot FillingonKILT: T-REx
Recall@5
33.04
best: 89.36 (TABi)
Slot FillingonKILT: Zero Shot RE
Accuracy
44.74
best: 74.63 (single ngram)
Slot FillingonKILT: Zero Shot RE
F1
49.95
best: 79.66 (single ngram)
Slot FillingonKILT: Zero Shot RE
KILT-AC
36.83
best: 73.2 (single ngram)
Slot FillingonKILT: Zero Shot RE
KILT-F1
39.91
best: 78.12 (single ngram)
Slot FillingonKILT: Zero Shot RE
R-Prec
53.73
best: 98.49 (KGI_1)
Slot FillingonKILT: Zero Shot RE
Recall@5
59.52
best: 99.34 (single ngram)
Open-Domain Question AnsweringonKILT: TriviaQA
EM
71.27
best: 76.27 (Re2G)
Open-Domain Question AnsweringonKILT: TriviaQA
F1
75.88
best: 81.4 (Re2G)
Open-Domain Question AnsweringonKILT: TriviaQA
KILT-EM
38.13
best: 57.91 (Re2G)
Open-Domain Question AnsweringonKILT: TriviaQA
KILT-F1
40.15
best: 61.78 (Re2G)
Open-Domain Question AnsweringonKILT: TriviaQA
R-Prec
48.68
best: 72.68 (Re2G)
Open-Domain Question AnsweringonKILT: TriviaQA
Recall@5
57.13
best: 76.36 (intersect)
Open-Domain Question AnsweringonKILT: Natural Questions
EM
44.39
best: 53.74 (intersect)
Open-Domain Question AnsweringonKILT: Natural Questions
F1
52.35
best: 62.24 (intersect)
Open-Domain Question AnsweringonKILT: Natural Questions
KILT-EM
32.69
best: 43.56 (Re2G)
Open-Domain Question AnsweringonKILT: Natural Questions
KILT-F1
37.91
best: 49.8 (Re2G)
Open-Domain Question AnsweringonKILT: Natural Questions
R-Prec
59.49
best: 70.78 (Re2G)
Open-Domain Question AnsweringonKILT: Natural Questions
Recall@5
67.06
best: 76.63 (Re2G)
Open-Domain Question AnsweringonKILT: HotpotQA
EM
26.97
best: 40.46 (intersect)
Open-Domain Question AnsweringonKILT: HotpotQA
F1
36.03
best: 51.44 (intersect)
Open-Domain Question AnsweringonKILT: HotpotQA
KILT-EM
3.21
best: 18.06 (intersect)
Open-Domain Question AnsweringonKILT: HotpotQA
KILT-F1
4.1
best: 21.42 (intersect)
Open-Domain Question AnsweringonKILT: HotpotQA
R-Prec
30.59
best: 58.83 (intersect)
Open-Domain Question AnsweringonKILT: HotpotQA
Recall@5
12.59
best: 51.03 (intersect)
Open-Domain Question AnsweringonKILT: ELI5
KILT-F1
1.79
best: 3 (somebody)
Open-Domain Question AnsweringonKILT: ELI5
KILT-RL
1.69
best: 2.62 (somebody)
Open-Domain Question AnsweringonKILT: ELI5
R-Prec
11
best: 18.33 (TABi)
Open-Domain Question AnsweringonKILT: ELI5
Recall@5
22.92
best: 28.21 (TABi)
Open-Domain DialogonKILT: Wizard of Wikipedia
F1
13.11
best: 19.19 (Hindsight)
Open-Domain DialogonKILT: Wizard of Wikipedia
KILT-F1
8.75
best: 13.39 (Hindsight)
Open-Domain DialogonKILT: Wizard of Wikipedia
KILT-RL
7.59
best: 11.92 (Hindsight)
Open-Domain DialogonKILT: Wizard of Wikipedia
R-Prec
57.75
best: 64.79 (chriskuei)
Open-Domain DialogonKILT: Wizard of Wikipedia
ROUGE-L
11.57
best: 17.06 (Hindsight)
Open-Domain DialogonKILT: Wizard of Wikipedia
Recall@5
74.61
best: 82.15 (chriskuei)