Image Captioning on nocaps near-domain

Metric: B1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	B1▼	Extra Data	Paper	Date↕	Code
1	GIT2, Single Model	88.9	No	GIT: A Generative Image-to-text Transformer for ...	2022-05-27	Code
2	PaLI	88.57	No	PaLI: A Jointly-Scaled Multilingual Language-Ima...	2022-09-14	Code
3	GIT, Single Model	88.56	No	GIT: A Generative Image-to-text Transformer for ...	2022-05-27	Code
4	CoCa - Google Brain	87.53	No	-	-	-
5	Microsoft Cognitive Services team	86.48	No	VIVO: Visual Vocabulary Pre-Training for Novel O...	2020-09-28	-
6	FudanFVL	84.47	No	-	-	-
7	Single Model	84.36	No	SimVLM: Simple Visual Language Model Pretraining...	2021-08-24	Code
8	IEDA-LAB	84.04	No	-	-	-
9	FudanWYZ	83.71	No	-	-	-
10	MD	83.58	No	-	-	-
11	VinVL (Microsoft Cognitive Services + MSR)	82.77	No	VinVL: Revisiting Visual Representations in Visi...	2021-01-02	Code
12	vll@mk514	82.55	No	-	-	-
13	ViTCAP-CIDEr-136.7-ENC-DEC-ViTbfocal10-test-CBS	81.93	No	-	-	-
14	firethehole	81.62	No	-	-	-
15	Oscar	80.54	No	-	-	-
16	vinvl_yuan_cbs	80.24	No	-	-	-
17	cxy_nocaps_training	79.69	No	-	-	-
18	evertyhing	79.67	No	-	-	-
19	icgp2ssi1_coco_si_0.02_5_test	79.61	No	-	-	-
20	Xinyi	79.59	No	-	-	-
21	RCAL	79.21	No	-	-	-
22	camel XE	79.21	No	-	-	-
23	MQ-UpDown-C	77.76	No	-	-	-
24	UpDown + ELMo + CBS	77.68	No	-	-	-
25	Human	77.05	No	-	-	-
26	nocaps_training	75.25	No	-	-	-
27	UpDown	75.25	No	-	-	-
28	Neural Baby Talk + CBS	74.77	No	-	-	-
29	B2	74.07	No	-	-	-
30	YX	73.73	No	-	-	-
31	Neural Baby Talk	73.69	No	-	-	-
32	7_10-7_40000_predict_test.json	73.6	No	-	-	-
33	area_attention	73.19	No	-	-	-
34	None	72.91	No	-	-	-
35	coco_all_19	70.84	No	-	-	-
36	CS395T	70.05	No	-	-	-
37	Yu-Wu	68.86	No	-	-	-

#1GIT2, Single ModelSOTA
88.9
B1· 2022-05-27
GIT: A Generative Image-to-text Transformer for Vision and Language Code
#2PaLI
88.57
B1· 2022-09-14
PaLI: A Jointly-Scaled Multilingual Language-Image Model Code
#3GIT, Single Model
88.56
B1· 2022-05-27
GIT: A Generative Image-to-text Transformer for Vision and Language Code
#4CoCa - Google Brain
87.53
B1
No paper
#5Microsoft Cognitive Services teamSOTA
86.48
B1· 2020-09-28
VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning
#6FudanFVL
84.47
B1
No paper
#7Single Model
84.36
B1· 2021-08-24
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Code
#8IEDA-LAB
84.04
B1
No paper
#9FudanWYZ
83.71
B1
No paper
#10MD
83.58
B1
No paper
#11VinVL (Microsoft Cognitive Services + MSR)
82.77
B1· 2021-01-02
VinVL: Revisiting Visual Representations in Vision-Language Models Code
#12vll@mk514
82.55
B1
No paper
#13ViTCAP-CIDEr-136.7-ENC-DEC-ViTbfocal10-test-CBS
81.93
B1
No paper
#14firethehole
81.62
B1
No paper
#15Oscar
80.54
B1
No paper
#16vinvl_yuan_cbs
80.24
B1
No paper
#17cxy_nocaps_training
79.69
B1
No paper
#18evertyhing
79.67
B1
No paper
#19icgp2ssi1_coco_si_0.02_5_test
79.61
B1
No paper
#20Xinyi
79.59
B1
No paper
#21RCAL
79.21
B1
No paper
#22camel XE
79.21
B1
No paper
#23MQ-UpDown-C
77.76
B1
No paper
#24UpDown + ELMo + CBS
77.68
B1
No paper
#25Human
77.05
B1
No paper
#26nocaps_training
75.25
B1
No paper
#27UpDown
75.25
B1
No paper
#28Neural Baby Talk + CBS
74.77
B1
No paper
#29B2
74.07
B1
No paper
#30YX
73.73
B1
No paper
#31Neural Baby Talk
73.69
B1
No paper
#327_10-7_40000_predict_test.json
73.6
B1
No paper
#33area_attention
73.19
B1
No paper
#34None
72.91
B1
No paper
#35coco_all_19
70.84
B1
No paper
#36CS395T
70.05
B1
No paper
#37Yu-Wu
68.86
B1
No paper