Video Captioning on ViTT

Metric: SODA (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	SODA▼	Extra Data	Paper	Date↕	Code
1	Vid2Seq (VidChapters-7M PT)	9.1	Yes	-	-	-
2	Vid2Seq (VidChapters-7M PT)	0.151	Yes	-	-	-
3	HiCM²	0.15	Yes	HiCM$^2$: Hierarchical Compact Memory Modeling f...	2024-12-19	Code
4	Vid2Seq	0.135	Yes	Vid2Seq: Large-Scale Pretraining of a Visual Lan...	2023-02-27	Code

#1Vid2Seq (VidChapters-7M PT)
9.1
SODA· Extra Data
No paper
#2Vid2Seq (VidChapters-7M PT)
0.151
SODA· Extra Data
No paper
#3HiCM²SOTA
0.15
SODA· Extra Data· 2024-12-19
HiCM$^2$: Hierarchical Compact Memory Modeling for Dense Video Captioning Code
#4Vid2SeqSOTA
0.135
SODA· Extra Data· 2023-02-27
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning Code