Video Captioning on VATEX

Metric: CIDEr (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	CIDEr▼	Extra Data	Paper	Date↕	Code
1	VAST	99.5	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
2	COSA	96.5	Yes	COSA: Concatenated Sample Pretrained Vision-Lang...	2023-06-15	Code
3	VALOR	95.8	Yes	VALOR: Vision-Audio-Language Omni-Perception Pre...	2023-04-17	Code
4	VideoCoCa	77.8	Yes	VideoCoCa: Video-Text Modeling with Zero-Shot Tr...	2022-12-09	-
5	IcoCap (ViT-B/16)	67.8	Yes	-	-	-
6	VASTA (Kinetics-backbone)	65.07	No	Diverse Video Captioning by Adaptive Spatio-temp...	2022-08-19	Code
7	CoCap (ViT/L14)	64.8	No	Accurate and Fast Compressed Video Captioning	2023-09-22	Code
8	IcoCap (ViT-B/32)	63.4	Yes	-	-	-
9	ORG-TRL	49.7	Yes	Object Relational Graph with Teacher-Recommended...	2020-02-26	-
10	NITS-VC	24	No	NITS-VC System for VATEX Video Captioning Challe...	2020-06-07	-

#1VASTSOTA
99.5
CIDEr· Extra Data· 2023-05-29
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Code
#2COSA
96.5
CIDEr· Extra Data· 2023-06-15
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model Code
#3VALORSOTA
95.8
CIDEr· Extra Data· 2023-04-17
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Code
#4VideoCoCaSOTA
77.8
CIDEr· Extra Data· 2022-12-09
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
#5IcoCap (ViT-B/16)
67.8
CIDEr· Extra Data
No paper
#6VASTA (Kinetics-backbone)SOTA
65.07
CIDEr· 2022-08-19
Diverse Video Captioning by Adaptive Spatio-temporal Attention Code
#7CoCap (ViT/L14)
64.8
CIDEr· 2023-09-22
Accurate and Fast Compressed Video Captioning Code
#8IcoCap (ViT-B/32)
63.4
CIDEr· Extra Data
No paper
#9ORG-TRLSOTA
49.7
CIDEr· Extra Data· 2020-02-26
Object Relational Graph with Teacher-Recommended Learning for Video Captioning
#10NITS-VC
24
CIDEr· 2020-06-07
NITS-VC System for VATEX Video Captioning Challenge 2020