Video on VATEX

Metric: text-to-video R@5 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	text-to-video R@5▼	Extra Data	Paper	Date↕	Code
1	VAST	98.2	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
2	VALOR	97.1	Yes	VALOR: Vision-Audio-Language Omni-Perception Pre...	2023-04-17	Code
3	Unmasked Teacher	95.1	No	Unmasked Teacher: Towards Training-Efficient Vid...	2023-03-28	Code
4	Side4Video	93.5	No	Side4Video: Spatial-Temporal Side Network for Me...	2023-11-27	Code
5	Cap4Video	93.1	No	Cap4Video: What Can Auxiliary Captions Do for Te...	2022-12-31	Code
6	TeachCLIP	91.9	No	-	-	Code

#1VASTSOTA
98.2
text-to-video R@5· Extra Data· 2023-05-29
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Code
#2VALORSOTA
97.1
text-to-video R@5· Extra Data· 2023-04-17
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Code
#3Unmasked TeacherSOTA
95.1
text-to-video R@5· 2023-03-28
Unmasked Teacher: Towards Training-Efficient Video Foundation Models Code
#4Side4Video
93.5
text-to-video R@5· 2023-11-27
Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning Code
#5Cap4VideoSOTA
93.1
text-to-video R@5· 2022-12-31
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?Code
#6TeachCLIP
91.9
text-to-video R@5
No paperCode