Image-to-Text Retrieval on COCO (Common Objects in Context)

Metric: Recall@5 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Recall@5▼	Extra Data	Paper	Date↕	Code
1	BLIP-2 (ViT-G, fine-tuned)	97	No	BLIP-2: Bootstrapping Language-Image Pre-trainin...	2023-01-30	Code
2	ONE-PEACE (ViT-G, w/o ranking)	96.3	No	ONE-PEACE: Exploring One General Representation ...	2023-05-18	Code
3	BLIP-2 (ViT-L, fine-tuned)	96	No	BLIP-2: Bootstrapping Language-Image Pre-trainin...	2023-01-30	Code
4	IAIS	89.7	No	Learning Relation Alignment for Calibrated Cross...	2021-05-28	Code
5	CLIP (zero-shot)	81.5	No	Learning Transferable Visual Models From Natural...	2021-02-26	Code
6	FLAVA (ViT-B, zero-shot)	76.76	No	FLAVA: A Foundational Language And Vision Alignm...	2021-12-08	Code

#1BLIP-2 (ViT-G, fine-tuned)SOTA
97
Recall@5· 2023-01-30
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Code
#2ONE-PEACE (ViT-G, w/o ranking)
96.3
Recall@5· 2023-05-18
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities Code
#3BLIP-2 (ViT-L, fine-tuned)
96
Recall@5· 2023-01-30
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Code
#4IAISSOTA
89.7
Recall@5· 2021-05-28
Learning Relation Alignment for Calibrated Cross-modal Retrieval Code
#5CLIP (zero-shot)SOTA
81.5
Recall@5· 2021-02-26
Learning Transferable Visual Models From Natural Language Supervision Code
#6FLAVA (ViT-B, zero-shot)
76.76
Recall@5· 2021-12-08
FLAVA: A Foundational Language And Vision Alignment Model Code