Video Captioning on ActivityNet Captions

Metric: ROUGE-L (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	ROUGE-L▼	Extra Data	Paper	Date↕	Code
1	VLTinT (ae-test split) C3D/Ling	36.56	No	VLTinT: Visual-Linguistic Transformer-in-Transfo...	2022-11-28	Code
2	VLCap (ae-test split) - Appearance + Language	35.99	No	VLCap: Vision-Language with Contrastive Learning...	2022-06-26	Code
3	VideoCoCa	35	Yes	VideoCoCa: Video-Text Modeling with Zero-Shot Tr...	2022-12-09	-
4	COOT (ae-test split) - Only Appearance features	31.45	No	COOT: Cooperative Hierarchical Transformer for V...	2020-11-01	Code

#1VLTinT (ae-test split) C3D/LingSOTA
36.56
ROUGE-L· 2022-11-28
VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning Code
#2VLCap (ae-test split) - Appearance + LanguageSOTA
35.99
ROUGE-L· 2022-06-26
VLCap: Vision-Language with Contrastive Learning for Coherent Video Paragraph Captioning Code
#3VideoCoCa
35
ROUGE-L· Extra Data· 2022-12-09
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
#4COOT (ae-test split) - Only Appearance featuresSOTA
31.45
ROUGE-L· 2020-11-01
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Code