Image Captioning on nocaps val

Metric: CIDEr (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	CIDEr▼	Extra Data	Paper	Date↕	Code
1	Prismer	107.9	No	Prismer: A Vision-Language Model with Multi-Task...	2023-03-04	Code
2	MetaLM	58.7	No	Language Models are General-Purpose Interfaces	2022-06-13	Code
3	VL-T5	4.4	No	Unifying Vision-and-Language Tasks via Text Gene...	2021-02-04	Code