OWL-ViT (CLIP-L/14)

Reported on 12 benchmarks across 6 tasks · 1 paper · 6 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Methodology8 results

3DonLVIS v1.0
AP novel-Unrestricted open-vocabulary training· uses extra data· 2022-05-12
31.2
best: 45.8 (DITO)
SOTA
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
2D ClassificationonLVIS v1.0
AP novel-Unrestricted open-vocabulary training· uses extra data· 2022-05-12
31.2
best: 45.8 (DITO)
SOTA
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
2D Object DetectiononLVIS v1.0
AP novel-Unrestricted open-vocabulary training· uses extra data· 2022-05-12
31.2
best: 45.8 (DITO)
SOTA
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
16konLVIS v1.0
AP novel-Unrestricted open-vocabulary training· uses extra data· 2022-05-12
31.2
best: 45.8 (DITO)
SOTA
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
3DonLVIS v1.0
AP novel-LVIS base training· uses extra data· 2022-05-12
25.6
best: 43.4 (LaMI-DETR)
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
2D ClassificationonLVIS v1.0
AP novel-LVIS base training· uses extra data· 2022-05-12
25.6
best: 43.4 (LaMI-DETR)
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
2D Object DetectiononLVIS v1.0
AP novel-LVIS base training· uses extra data· 2022-05-12
25.6
best: 43.4 (LaMI-DETR)
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
16konLVIS v1.0
AP novel-LVIS base training· uses extra data· 2022-05-12
25.6
best: 43.4 (LaMI-DETR)
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230

Computer Vision4 results

Object DetectiononLVIS v1.0
AP novel-Unrestricted open-vocabulary training· uses extra data· 2022-05-12
31.2
best: 45.8 (DITO)
SOTA
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
Open Vocabulary Object DetectiononLVIS v1.0
AP novel-Unrestricted open-vocabulary training· uses extra data· 2022-05-12
31.2
best: 45.8 (DITO)
SOTA
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
Object DetectiononLVIS v1.0
AP novel-LVIS base training· uses extra data· 2022-05-12
25.6
best: 43.4 (LaMI-DETR)
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230
Open Vocabulary Object DetectiononLVIS v1.0
AP novel-LVIS base training· uses extra data· 2022-05-12
25.6
best: 43.4 (LaMI-DETR)
Simple Open-Vocabulary Object Detection with Vision Transformers arXiv:2205.06230