ViT-B-VTN (3 layers, ImageNet pretrain)

Reported on 2 benchmarks across 1 task · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Computer Vision2 results

VideoonKinetics-400
Acc@1· 2021-02-01
78.6
best: 93.6 (OmniVec2)
Video Transformer Network arXiv:2102.00719
VideoonKinetics-400
Acc@5· 2021-02-01
93.7
best: 98.9 (TubeViT-H (ImageNet-1k))
Video Transformer Network arXiv:2102.00719