Image Captioning on COCO Captions

Metric: BLEU-1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	BLEU-1▼	Extra Data	Paper	Date↕	Code
1	GRIT (No VL pretraining - base)	84.2	No	GRIT: Faster and Better Image captioning Transfo...	2022-07-20	Code
2	ExpansionNet v2 (No VL pretraining)	83.5	No	Exploiting Multiple Sequence Lengths in Fast End...	2022-08-13	Code
3	Xmodal-Ctx	83.4	No	Beyond a Pre-Trained Object Detector: Cross-Moda...	2022-05-09	Code
4	Xmodal-Ctx	81.5	No	Beyond a Pre-Trained Object Detector: Cross-Moda...	2022-05-09	Code
5	X-Transformer	80.9	No	X-Linear Attention Networks for Image Captioning	2020-03-31	Code
6	Meshed-Memory Transformer	80.8	No	Meshed-Memory Transformer for Image Captioning	2019-12-17	Code
7	Transformer_NSC	80.7	No	A Better Variant of Self-Critical Sequence Train...	2020-03-22	Code
8	RefineCap (w/ REINFORCE)	80.2	No	RefineCap: Concept-Aware Refinement for Image Ca...	2021-09-08	-
9	RDN	80.2	No	Reflective Decoding Network for Image Captioning	2019-08-30	-

#1GRIT (No VL pretraining - base)SOTA
84.2
BLEU-1· 2022-07-20
GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features Code
#2ExpansionNet v2 (No VL pretraining)
83.5
BLEU-1· 2022-08-13
Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning Code
#3Xmodal-CtxSOTA
83.4
BLEU-1· 2022-05-09
Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning Code
#4Xmodal-Ctx
81.5
BLEU-1· 2022-05-09
Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning Code
#5X-TransformerSOTA
80.9
BLEU-1· 2020-03-31
X-Linear Attention Networks for Image Captioning Code
#6Meshed-Memory TransformerSOTA
80.8
BLEU-1· 2019-12-17
Meshed-Memory Transformer for Image Captioning Code
#7Transformer_NSC
80.7
BLEU-1· 2020-03-22
A Better Variant of Self-Critical Sequence Training Code
#8RefineCap (w/ REINFORCE)
80.2
BLEU-1· 2021-09-08
RefineCap: Concept-Aware Refinement for Image Captioning
#9RDNSOTA
80.2
BLEU-1· 2019-08-30
Reflective Decoding Network for Image Captioning