16k on OVAD-Box benchmark

Metric: mean average precision (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide augmentations

Sort:

#	Model↕	mean average precision▼	Augmentations	Paper	Date↕	Code
1	X-VLM	28	Yes	Multi-Grained Vision Language Pre-Training: Alig...	2021-11-16	Code
2	BLIP 2 (pretrained)	25.5	Yes	BLIP-2: Bootstrapping Language-Image Pre-trainin...	2023-01-30	Code
3	BLIP	24.3	Yes	BLIP: Bootstrapping Language-Image Pre-training ...	2022-01-28	Code
4	OVAD-Baseline-Box	21.4	No	Open-vocabulary Attribute Detection	2022-11-23	Code
5	ALBEF	21	Yes	Align before Fuse: Vision and Language Represent...	2021-07-16	Code
6	Open CLIP ViT-B32	17	Yes	Reproducible scaling laws for contrastive langua...	2022-12-14	Code
7	CLIP VIT-B16	16.6	Yes	Learning Transferable Visual Models From Natural...	2021-02-26	Code

#1X-VLMSOTA
28
mean average precision· Augmentations· 2021-11-16
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts Code
#2BLIP 2 (pretrained)
25.5
mean average precision· Augmentations· 2023-01-30
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Code
#3BLIP
24.3
mean average precision· Augmentations· 2022-01-28
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Code
#4OVAD-Baseline-Box
21.4
mean average precision· 2022-11-23
Open-vocabulary Attribute Detection Code
#5ALBEFSOTA
21
mean average precision· Augmentations· 2021-07-16
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Code
#6Open CLIP ViT-B32
17
mean average precision· Augmentations· 2022-12-14
Reproducible scaling laws for contrastive language-image learning Code
#7CLIP VIT-B16SOTA
16.6
mean average precision· Augmentations· 2021-02-26
Learning Transferable Visual Models From Natural Language Supervision Code