All-attention network (36 layers)

Reported on 2 benchmarks across 1 task · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Medical2 results

Language ModellingonWikiText-103
Test perplexity· 2019-07-02
20.6
best: 2.4 (RETRO (7.5B))
Augmenting Self-attention with Persistent Memory arXiv:1907.01470
Language ModellingonWikiText-103
Validation perplexity· 2019-07-02
19.7
best: 13.11 (Ensemble of All)
Augmenting Self-attention with Persistent Memory arXiv:1907.01470