Video Captioning on ActivityNet Captions

Metric: BLEU-3 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	BLEU-3▼	Extra Data	Paper	Date↕	Code
1	COOT (ae-test split) - Only Appearance features	17.43	No	COOT: Cooperative Hierarchical Transformer for V...	2020-11-01	Code
2	TSP	4.16	No	TSP: Temporally-Sensitive Pretraining of Video E...	2020-11-23	Code
3	BMT	3.84	No	A Better Use of Audio-Visual Cues: Dense Video C...	2020-05-17	Code
4	iPerceive (Chadha et al., 2020)	2.93	No	iPerceive: Applying Common-Sense Reasoning to Mu...	2020-11-16	-
5	MDVC	2.6	No	Multi-modal Dense Video Captioning	2020-03-17	Code

#1COOT (ae-test split) - Only Appearance featuresSOTA
17.43
BLEU-3· 2020-11-01
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Code
#2TSP
4.16
BLEU-3· 2020-11-23
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks Code
#3BMTSOTA
3.84
BLEU-3· 2020-05-17
A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer Code
#4iPerceive (Chadha et al., 2020)
2.93
BLEU-3· 2020-11-16
iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering
#5MDVCSOTA
2.6
BLEU-3· 2020-03-17
Multi-modal Dense Video Captioning Code