Transformer-XL (SGD dynamic eval)

Reported on 2 benchmarks across 1 task · 1 paper · 2 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Medical2 results

Language ModellingonWikiText-103
Test perplexity· 2019-04-17
17
best: 2.4 (RETRO (7.5B))
SOTA
Dynamic Evaluation of Transformer Language Models arXiv:1904.08378
Language ModellingonWikiText-103
Validation perplexity· 2019-04-17
16.3
best: 13.11 (Ensemble of All)
SOTA
Dynamic Evaluation of Transformer Language Models arXiv:1904.08378