Video Retrieval on VATEX

Metric: text-to-video R@10 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	text-to-video R@10▼	Extra Data	Paper	Date↕	Code
1	GRAM	100	Yes	Gramian Multimodal Representation Learning and A...	2024-12-16	Code
2	VAST	99.2	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
3	VALOR	98.7	Yes	VALOR: Vision-Audio-Language Omni-Perception Pre...	2023-04-17	Code
4	Unmasked Teacher	97.8	No	Unmasked Teacher: Towards Training-Efficient Vid...	2023-03-28	Code
5	Side4Video	97	No	Side4Video: Spatial-Temporal Side Network for Me...	2023-11-27	Code
6	Cap4Video	97	No	Cap4Video: What Can Auxiliary Captions Do for Te...	2022-12-31	Code
7	TeachCLIP	96.1	No	-	-	Code
8	TS2-Net	95.2	No	TS2-Net: Token Shift and Selection Transformer f...	2022-07-16	Code
9	QB-Norm+CLIP2Video	93.8	Yes	Cross Modal Retrieval with Querybank Normalisation	2021-12-23	Code
10	LAFF	91.7	No	Lightweight Attentional Feature Fusion: A New Ba...	2021-12-03	Code
11	CLIP2Video	90	Yes	CLIP2Video: Mastering Video-Text Retrieval via I...	2021-06-21	Code

#1GRAMSOTA
100
text-to-video R@10· Extra Data· 2024-12-16
Gramian Multimodal Representation Learning and Alignment Code
#2VASTSOTA
99.2
text-to-video R@10· Extra Data· 2023-05-29
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Code
#3VALORSOTA
98.7
text-to-video R@10· Extra Data· 2023-04-17
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Code
#4Unmasked TeacherSOTA
97.8
text-to-video R@10· 2023-03-28
Unmasked Teacher: Towards Training-Efficient Video Foundation Models Code
#5Side4Video
97
text-to-video R@10· 2023-11-27
Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning Code
#6Cap4VideoSOTA
97
text-to-video R@10· 2022-12-31
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?Code
#7TeachCLIP
96.1
text-to-video R@10
No paperCode
#8TS2-NetSOTA
95.2
text-to-video R@10· 2022-07-16
TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval Code
#9QB-Norm+CLIP2VideoSOTA
93.8
text-to-video R@10· Extra Data· 2021-12-23
Cross Modal Retrieval with Querybank Normalisation Code
#10LAFFSOTA
91.7
text-to-video R@10· 2021-12-03
Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval Code
#11CLIP2VideoSOTA
90
text-to-video R@10· Extra Data· 2021-06-21
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP Code