AIM (CLIP ViT-L/14, 32x224)

Reported on 5 benchmarks across 3 tasks · 1 paper · 2 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Computer Vision3 results

VideoonKinetics-700
Top-1 Accuracy· uses extra data· 2023-02-06
80.4
best: 85.9 (InternVideo2-6B)
AIM: Adapting Image Models for Efficient Video Action Recognition arXiv:2302.03024
VideoonKinetics-400
Acc@1· uses extra data· 2023-02-06
87.5
best: 93.6 (OmniVec2)
AIM: Adapting Image Models for Efficient Video Action Recognition arXiv:2302.03024
VideoonKinetics-400
Acc@5· uses extra data· 2023-02-06
97.7
best: 98.9 (TubeViT-H (ImageNet-1k))
AIM: Adapting Image Models for Efficient Video Action Recognition arXiv:2302.03024

Robots1 result

Activity RecognitiononDiving-48
Accuracy· uses extra data· 2023-02-06
90.6
best: 94.9 (LVMAE)
SOTA
AIM: Adapting Image Models for Efficient Video Action Recognition arXiv:2302.03024

Time Series1 result

Action RecognitiononDiving-48
Accuracy· uses extra data· 2023-02-06
90.6
best: 94.9 (LVMAE)
SOTA
AIM: Adapting Image Models for Efficient Video Action Recognition arXiv:2302.03024