Denoising QA

Reported on 9 benchmarks across 2 tasks

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing9 results

Question AnsweringonQuasart-T
EM
42.2
best: 54 (Cluster-Former (#C=512))
Question AnsweringonQuasar
EM (Quasar-T)
42.2
best: 42.3 (Evidence Aggregation via R^3 Re-Ranking)
Question AnsweringonQuasar
F1 (Quasar-T)
49.3
best: 49.6 (Evidence Aggregation via R^3 Re-Ranking)
Question AnsweringonSearchQA
EM
58.8
best: 68 (Cluster-Former (#C=512))
Question AnsweringonSearchQA
F1
64.5
best: 84.8 (SpanBERT)
Open-Domain Question AnsweringonQuasar
EM (Quasar-T)
42.2
best: 42.3 (Evidence Aggregation via R^3 Re-Ranking)
Open-Domain Question AnsweringonQuasar
F1 (Quasar-T)
49.3
best: 49.6 (Evidence Aggregation via R^3 Re-Ranking)
Open-Domain Question AnsweringonSearchQA
EM
58.8
best: 68 (Cluster-Former (#C=512))
Open-Domain Question AnsweringonSearchQA
F1
64.5
best: 84.8 (SpanBERT)