Image Captioning on nocaps near-domain

Metric: ROUGE-L (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	ROUGE-L▼	Extra Data	Paper	Date↕	Code
1	PaLI	63.99	No	PaLI: A Jointly-Scaled Multilingual Language-Ima...	2022-09-14	Code
2	GIT2, Single Model	63.66	No	GIT: A Generative Image-to-text Transformer for ...	2022-05-27	Code
3	GIT, Single Model	63.5	No	GIT: A Generative Image-to-text Transformer for ...	2022-05-27	Code
4	CoCa - Google Brain	62.91	No	-	-	-
5	Microsoft Cognitive Services team	61.9	No	VIVO: Visual Vocabulary Pre-Training for Novel O...	2020-09-28	-
6	Single Model	60.46	No	SimVLM: Simple Visual Language Model Pretraining...	2021-08-24	Code
7	FudanFVL	60.34	No	-	-	-
8	FudanWYZ	59.8	No	-	-	-
9	IEDA-LAB	59.23	No	-	-	-
10	firethehole	58.83	No	-	-	-
11	MD	58.47	No	-	-	-
12	vll@mk514	58.22	No	-	-	-
13	VinVL (Microsoft Cognitive Services + MSR)	57.95	No	VinVL: Revisiting Visual Representations in Visi...	2021-01-02	Code
14	ViTCAP-CIDEr-136.7-ENC-DEC-ViTbfocal10-test-CBS	57.34	No	-	-	-
15	icgp2ssi1_coco_si_0.02_5_test	55.63	No	-	-	-
16	evertyhing	55.37	No	-	-	-
17	camel XE	55.24	No	-	-	-
18	Oscar	54.78	No	-	-	-
19	RCAL	54.62	No	-	-	-
20	vinvl_yuan_cbs	54.52	No	-	-	-
21	cxy_nocaps_training	53.37	No	-	-	-
22	Xinyi	53.18	No	-	-	-
23	MQ-UpDown-C	53.15	No	-	-	-
24	Human	53.06	No	-	-	-
25	UpDown + ELMo + CBS	52.64	No	-	-	-
26	nocaps_training	51.84	No	-	-	-
27	UpDown	51.84	No	-	-	-
28	7_10-7_40000_predict_test.json	51.23	No	-	-	-
29	B2	50.77	No	-	-	-
30	None	50.53	No	-	-	-
31	YX	50	No	-	-	-
32	area_attention	49.79	No	-	-	-
33	Neural Baby Talk	49.63	No	-	-	-
34	Neural Baby Talk + CBS	49.45	No	-	-	-
35	coco_all_19	48.61	No	-	-	-
36	Yu-Wu	47.13	No	-	-	-
37	CS395T	47.04	No	-	-	-

#1PaLISOTA
63.99
ROUGE-L· 2022-09-14
PaLI: A Jointly-Scaled Multilingual Language-Image Model Code
#2GIT2, Single ModelSOTA
63.66
ROUGE-L· 2022-05-27
GIT: A Generative Image-to-text Transformer for Vision and Language Code
#3GIT, Single Model
63.5
ROUGE-L· 2022-05-27
GIT: A Generative Image-to-text Transformer for Vision and Language Code
#4CoCa - Google Brain
62.91
ROUGE-L
No paper
#5Microsoft Cognitive Services teamSOTA
61.9
ROUGE-L· 2020-09-28
VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning
#6Single Model
60.46
ROUGE-L· 2021-08-24
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Code
#7FudanFVL
60.34
ROUGE-L
No paper
#8FudanWYZ
59.8
ROUGE-L
No paper
#9IEDA-LAB
59.23
ROUGE-L
No paper
#10firethehole
58.83
ROUGE-L
No paper
#11MD
58.47
ROUGE-L
No paper
#12vll@mk514
58.22
ROUGE-L
No paper
#13VinVL (Microsoft Cognitive Services + MSR)
57.95
ROUGE-L· 2021-01-02
VinVL: Revisiting Visual Representations in Vision-Language Models Code
#14ViTCAP-CIDEr-136.7-ENC-DEC-ViTbfocal10-test-CBS
57.34
ROUGE-L
No paper
#15icgp2ssi1_coco_si_0.02_5_test
55.63
ROUGE-L
No paper
#16evertyhing
55.37
ROUGE-L
No paper
#17camel XE
55.24
ROUGE-L
No paper
#18Oscar
54.78
ROUGE-L
No paper
#19RCAL
54.62
ROUGE-L
No paper
#20vinvl_yuan_cbs
54.52
ROUGE-L
No paper
#21cxy_nocaps_training
53.37
ROUGE-L
No paper
#22Xinyi
53.18
ROUGE-L
No paper
#23MQ-UpDown-C
53.15
ROUGE-L
No paper
#24Human
53.06
ROUGE-L
No paper
#25UpDown + ELMo + CBS
52.64
ROUGE-L
No paper
#26nocaps_training
51.84
ROUGE-L
No paper
#27UpDown
51.84
ROUGE-L
No paper
#287_10-7_40000_predict_test.json
51.23
ROUGE-L
No paper
#29B2
50.77
ROUGE-L
No paper
#30None
50.53
ROUGE-L
No paper
#31YX
50
ROUGE-L
No paper
#32area_attention
49.79
ROUGE-L
No paper
#33Neural Baby Talk
49.63
ROUGE-L
No paper
#34Neural Baby Talk + CBS
49.45
ROUGE-L
No paper
#35coco_all_19
48.61
ROUGE-L
No paper
#36Yu-Wu
47.13
ROUGE-L
No paper
#37CS395T
47.04
ROUGE-L
No paper