Image Captioning on nocaps out-of-domain

Metric: B4 (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	B4▼	Extra Data	Paper	Date↕	Code
1	PaLI	32	No	PaLI: A Jointly-Scaled Multilingual Language-Ima...	2022-09-14	Code
2	CoCa - Google Brain	31.89	No	-	-	-
3	GIT2, Single Model	30.15	No	GIT: A Generative Image-to-text Transformer for ...	2022-05-27	Code
4	GIT, Single Model	30.04	No	GIT: A Generative Image-to-text Transformer for ...	2022-05-27	Code
5	Microsoft Cognitive Services team	25.78	No	VIVO: Visual Vocabulary Pre-Training for Novel O...	2020-09-28	-
6	FudanFVL	25.31	No	-	-	-
7	FudanWYZ	24.57	No	-	-	-
8	Single Model	24.47	No	SimVLM: Simple Visual Language Model Pretraining...	2021-08-24	Code
9	firethehole	22.66	No	-	-	-
10	IEDA-LAB	20.64	No	-	-	-
11	icgp2ssi1_coco_si_0.02_5_test	17.96	No	-	-	-
12	MD	17.85	No	-	-	-
13	ViTCAP-CIDEr-136.7-ENC-DEC-ViTbfocal10-test-CBS	17.68	No	-	-	-
14	vll@mk514	16.92	No	-	-	-
15	evertyhing	16.69	No	-	-	-
16	Human	16.6	No	-	-	-
17	VinVL (Microsoft Cognitive Services + MSR)	15.86	No	VinVL: Revisiting Visual Representations in Visi...	2021-01-02	Code
18	camel XE	12.99	No	-	-	-
19	Oscar	12.42	No	-	-	-
20	UpDown-C	11.99	No	-	-	-
21	RCAL	11.94	No	-	-	-
22	vinvl_yuan_cbs	11.69	No	-	-	-
23	cxy_nocaps_training	10.98	No	-	-	-
24	Xinyi	10.57	No	-	-	-
25	nocaps_training	10.17	No	-	-	-
26	UpDown	10.17	No	-	-	-
27	7_10-7_40000_predict_test.json	10.14	No	-	-	-
28	UpDown + ELMo + CBS	9.68	No	-	-	-
29	B2	9.46	No	-	-	-
30	area_attention	8.72	No	-	-	-
31	YX	8.54	No	-	-	-
32	CS395T	8.2	No	-	-	-
33	Neural Baby Talk	7.92	No	-	-	-
34	coco_all_19	7.55	No	-	-	-
35	Neural Baby Talk + CBS	7.5	No	-	-	-
36	Yu-Wu	6.11	No	-	-	-
37	Check	1.83	No	-	-	-

#1PaLISOTA
32
B4· 2022-09-14
PaLI: A Jointly-Scaled Multilingual Language-Image Model Code
#2CoCa - Google Brain
31.89
B4
No paper
#3GIT2, Single ModelSOTA
30.15
B4· 2022-05-27
GIT: A Generative Image-to-text Transformer for Vision and Language Code
#4GIT, Single Model
30.04
B4· 2022-05-27
GIT: A Generative Image-to-text Transformer for Vision and Language Code
#5Microsoft Cognitive Services teamSOTA
25.78
B4· 2020-09-28
VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning
#6FudanFVL
25.31
B4
No paper
#7FudanWYZ
24.57
B4
No paper
#8Single Model
24.47
B4· 2021-08-24
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Code
#9firethehole
22.66
B4
No paper
#10IEDA-LAB
20.64
B4
No paper
#11icgp2ssi1_coco_si_0.02_5_test
17.96
B4
No paper
#12MD
17.85
B4
No paper
#13ViTCAP-CIDEr-136.7-ENC-DEC-ViTbfocal10-test-CBS
17.68
B4
No paper
#14vll@mk514
16.92
B4
No paper
#15evertyhing
16.69
B4
No paper
#16Human
16.6
B4
No paper
#17VinVL (Microsoft Cognitive Services + MSR)
15.86
B4· 2021-01-02
VinVL: Revisiting Visual Representations in Vision-Language Models Code
#18camel XE
12.99
B4
No paper
#19Oscar
12.42
B4
No paper
#20UpDown-C
11.99
B4
No paper
#21RCAL
11.94
B4
No paper
#22vinvl_yuan_cbs
11.69
B4
No paper
#23cxy_nocaps_training
10.98
B4
No paper
#24Xinyi
10.57
B4
No paper
#25nocaps_training
10.17
B4
No paper
#26UpDown
10.17
B4
No paper
#277_10-7_40000_predict_test.json
10.14
B4
No paper
#28UpDown + ELMo + CBS
9.68
B4
No paper
#29B2
9.46
B4
No paper
#30area_attention
8.72
B4
No paper
#31YX
8.54
B4
No paper
#32CS395T
8.2
B4
No paper
#33Neural Baby Talk
7.92
B4
No paper
#34coco_all_19
7.55
B4
No paper
#35Neural Baby Talk + CBS
7.5
B4
No paper
#36Yu-Wu
6.11
B4
No paper
#37Check
1.83
B4
No paper