Video Captioning on MSR-VTT

Metric: BLEU-4 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	BLEU-4▼	Extra Data	Paper	Date↕	Code
1	mPLUG-2	57.8	No	mPLUG-2: A Modularized Multi-modal Foundation Mo...	2023-02-01	Code
2	VAST	56.7	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
3	GIT2	54.8	Yes	GIT: A Generative Image-to-text Transformer for ...	2022-05-27	Code
4	VLAB	54.6	Yes	VLAB: Enhancing Video Language Pre-training by F...	2023-05-22	-
5	VALOR	54.4	Yes	VALOR: Vision-Audio-Language Omni-Perception Pre...	2023-04-17	Code
6	VideoCoCa	53.8	Yes	VideoCoCa: Video-Text Modeling with Zero-Shot Tr...	2022-12-09	-
7	COSA	53.7	Yes	COSA: Concatenated Sample Pretrained Vision-Lang...	2023-06-15	Code
8	HowToCaption	49.8	No	HowToCaption: Prompting LLMs to Transform Video ...	2023-10-07	Code
9	RTQ	49.6	Yes	RTQ: Rethinking Video-language Understanding Bas...	2023-12-01	Code
10	HiTeA	49.2	Yes	HiTeA: Hierarchical Temporal-Aware Video-Languag...	2022-12-30	-
11	MV-GPT	48.9	Yes	End-to-end Generative Pretraining for Multimodal...	2022-01-20	-
12	CLIP-DCD	48.2	No	CLIP Meets Video Captioning: Concept-Aware Repre...	2021-11-30	Code
13	IcoCap (ViT-B/16)	47	Yes	-	-	-
14	TextKG	46.6	No	Text with Knowledge Graph Augmented Transformer ...	2023-03-22	-
15	IcoCap (ViT-B/32)	46.1	Yes	-	-	-
16	EMCL-Net	45.3	No	Expectation-Maximization Contrastive Learning fo...	2022-11-21	Code
17	SEM-POS	45.2	No	SEM-POS: Grammatically and Semantically Correct ...	2023-03-26	-
18	CoCap (ViT/L14)	44.4	No	Accurate and Fast Compressed Video Captioning	2023-09-22	Code
19	VASTA (Vatex-backbone)	44.21	No	Diverse Video Captioning by Adaptive Spatio-temp...	2022-08-19	Code
20	UniVL + MELTR	44.17	No	MELTR: Meta Loss Transformer for Learning to Fin...	2023-03-23	Code
21	VASTA (Kinetics-backbone)	43.4	No	Diverse Video Captioning by Adaptive Spatio-temp...	2022-08-19	Code

#1mPLUG-2SOTA
57.8
BLEU-4· 2023-02-01
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video Code
#2VAST
56.7
BLEU-4· Extra Data· 2023-05-29
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Code
#3GIT2SOTA
54.8
BLEU-4· Extra Data· 2022-05-27
GIT: A Generative Image-to-text Transformer for Vision and Language Code
#4VLAB
54.6
BLEU-4· Extra Data· 2023-05-22
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending
#5VALOR
54.4
BLEU-4· Extra Data· 2023-04-17
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Code
#6VideoCoCa
53.8
BLEU-4· Extra Data· 2022-12-09
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
#7COSA
53.7
BLEU-4· Extra Data· 2023-06-15
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model Code
#8HowToCaption
49.8
BLEU-4· 2023-10-07
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale Code
#9RTQ
49.6
BLEU-4· Extra Data· 2023-12-01
RTQ: Rethinking Video-language Understanding Based on Image-text Model Code
#10HiTeA
49.2
BLEU-4· Extra Data· 2022-12-30
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
#11MV-GPTSOTA
48.9
BLEU-4· Extra Data· 2022-01-20
End-to-end Generative Pretraining for Multimodal Video Captioning
#12CLIP-DCDSOTA
48.2
BLEU-4· 2021-11-30
CLIP Meets Video Captioning: Concept-Aware Representation Learning Does Matter Code
#13IcoCap (ViT-B/16)
47
BLEU-4· Extra Data
No paper
#14TextKG
46.6
BLEU-4· 2023-03-22
Text with Knowledge Graph Augmented Transformer for Video Captioning
#15IcoCap (ViT-B/32)
46.1
BLEU-4· Extra Data
No paper
#16EMCL-Net
45.3
BLEU-4· 2022-11-21
Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations Code
#17SEM-POS
45.2
BLEU-4· 2023-03-26
SEM-POS: Grammatically and Semantically Correct Video Captioning
#18CoCap (ViT/L14)
44.4
BLEU-4· 2023-09-22
Accurate and Fast Compressed Video Captioning Code
#19VASTA (Vatex-backbone)
44.21
BLEU-4· 2022-08-19
Diverse Video Captioning by Adaptive Spatio-temporal Attention Code
#20UniVL + MELTR
44.17
BLEU-4· 2023-03-23
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models Code
#21VASTA (Kinetics-backbone)
43.4
BLEU-4· 2022-08-19
Diverse Video Captioning by Adaptive Spatio-temporal Attention Code