Image Captioning on nocaps-val-in-domain

Metric: CIDEr (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	CIDEr▼	Extra Data	Paper	Date↕	Code
1	BLIP-2 ViT-G FlanT5 XL (zero-shot)	123.7	No	BLIP-2: Bootstrapping Language-Image Pre-trainin...	2023-01-30	Code
2	BLIP-2 ViT-G OPT 6.7B (zero-shot)	123.7	No	BLIP-2: Bootstrapping Language-Image Pre-trainin...	2023-01-30	Code
3	BLIP-2 ViT-G OPT 2.7B (zero-shot)	123	No	BLIP-2: Bootstrapping Language-Image Pre-trainin...	2023-01-30	Code
4	LEMON_large	116.9	No	Scaling Up Vision-Language Pre-training for Imag...	2021-11-24	-
5	BLIP_ViT-L	114.9	No	BLIP: Bootstrapping Language-Image Pre-training ...	2022-01-28	Code
6	SimVLM	113.7	No	SimVLM: Simple Visual Language Model Pretraining...	2021-08-24	Code
7	BLIP_CapFilt-L	111.8	No	BLIP: Bootstrapping Language-Image Pre-training ...	2022-01-28	Code
8	LEMON_base	107.7	No	Scaling Up Vision-Language Pre-training for Imag...	2021-11-24	-
9	OmniVL	104.6	No	OmniVL:One Foundation Model for Image-Language a...	2022-09-15	-
10	VinVL	103.1	No	VinVL: Revisiting Visual Representations in Visi...	2021-01-02	Code
11	Enc-Dec	92.6	No	Conceptual 12M: Pushing Web-Scale Image-Text Pre...	2021-02-17	Code

#1BLIP-2 ViT-G FlanT5 XL (zero-shot)SOTA
123.7
CIDEr· 2023-01-30
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Code
#2BLIP-2 ViT-G OPT 6.7B (zero-shot)
123.7
CIDEr· 2023-01-30
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Code
#3BLIP-2 ViT-G OPT 2.7B (zero-shot)
123
CIDEr· 2023-01-30
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Code
#4LEMON_largeSOTA
116.9
CIDEr· 2021-11-24
Scaling Up Vision-Language Pre-training for Image Captioning
#5BLIP_ViT-L
114.9
CIDEr· 2022-01-28
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Code
#6SimVLMSOTA
113.7
CIDEr· 2021-08-24
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Code
#7BLIP_CapFilt-L
111.8
CIDEr· 2022-01-28
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Code
#8LEMON_base
107.7
CIDEr· 2021-11-24
Scaling Up Vision-Language Pre-training for Image Captioning
#9OmniVL
104.6
CIDEr· 2022-09-15
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks
#10VinVLSOTA
103.1
CIDEr· 2021-01-02
VinVL: Revisiting Visual Representations in Vision-Language Models Code
#11Enc-Dec
92.6
CIDEr· 2021-02-17
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Code