Video on SSv2-label retrieval

Metric: text-to-video R@5 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	text-to-video R@5▼	Extra Data	Paper	Date↕	Code
1	vid-TLDR (UMT-L)	93.3	Yes	vid-TLDR: Training Free Token merging for Light-...	2024-03-20	Code
2	UMT-L (ViT-L/16)	92.7	Yes	Unmasked Teacher: Towards Training-Efficient Vid...	2023-03-28	Code
3	HiTeA	89.1	Yes	HiTeA: Hierarchical Temporal-Aware Video-Languag...	2022-12-30	-
4	VindLU	81.8	Yes	VindLU: A Recipe for Effective Video-and-Languag...	2022-12-09	Code
5	Singularity-temporal	75.9	Yes	Revealing Single Frame Bias for Video-and-Langua...	2022-06-07	Code

#1vid-TLDR (UMT-L)SOTA
93.3
text-to-video R@5· Extra Data· 2024-03-20
vid-TLDR: Training Free Token merging for Light-weight Video Transformer Code
#2UMT-L (ViT-L/16)SOTA
92.7
text-to-video R@5· Extra Data· 2023-03-28
Unmasked Teacher: Towards Training-Efficient Video Foundation Models Code
#3HiTeASOTA
89.1
text-to-video R@5· Extra Data· 2022-12-30
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training
#4VindLUSOTA
81.8
text-to-video R@5· Extra Data· 2022-12-09
VindLU: A Recipe for Effective Video-and-Language Pretraining Code
#5Singularity-temporalSOTA
75.9
text-to-video R@5· Extra Data· 2022-06-07
Revealing Single Frame Bias for Video-and-Language Learning Code