Video Captioning on YouCook2

Metric: BLEU-3 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	BLEU-3▼	Extra Data	Paper	Date↕	Code
1	UniVL + MELTR	24.12	No	MELTR: Meta Loss Transformer for Learning to Fin...	2023-03-23	Code
2	UniVL	23.87	Yes	UniVL: A Unified Video and Language Pre-Training...	2020-02-15	Code
3	COOT	17.97	Yes	COOT: Cooperative Hierarchical Transformer for V...	2020-11-01	Code
4	VLM	17.78	Yes	VLM: Task-agnostic Video-Language Model Pre-trai...	2021-05-20	Code
5	OmniVL	12.87	No	OmniVL:One Foundation Model for Image-Language a...	2022-09-15	-
6	VideoBERT + S3D	7.59	No	VideoBERT: A Joint Model for Video and Language ...	2019-04-03	Code
7	Zhou	7.53	No	End-to-End Dense Video Captioning with Masked Tr...	2018-04-03	Code

#1UniVL + MELTRSOTA
24.12
BLEU-3· 2023-03-23
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models Code
#2UniVLSOTA
23.87
BLEU-3· Extra Data· 2020-02-15
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation Code
#3COOT
17.97
BLEU-3· Extra Data· 2020-11-01
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Code
#4VLM
17.78
BLEU-3· Extra Data· 2021-05-20
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding Code
#5OmniVL
12.87
BLEU-3· 2022-09-15
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks
#6VideoBERT + S3DSOTA
7.59
BLEU-3· 2019-04-03
VideoBERT: A Joint Model for Video and Language Representation Learning Code
#7ZhouSOTA
7.53
BLEU-3· 2018-04-03
End-to-End Dense Video Captioning with Masked Transformer Code