Zero-Shot Video Retrieval on DiDeMo

Metric: text-to-video Median Rank (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	text-to-video Median Rank▼	Extra Data	Paper	Date↕	Code
1	LaT	7	No	LaT: Latent Translation with Cycle-Consistency f...	2022-07-11	-
2	M. Bain et. al.	7	No	Frozen in Time: A Joint Video and Image Encoder ...	2021-04-01	Code
3	ALPRO	6	No	Align and Prompt: Video-and-Language Pre-trainin...	2021-12-17	Code
4	OA-Trans	6	No	Object-aware Video-language Pre-training for Ret...	2021-12-01	Code
5	MILES	5	No	MILES: Visual BERT Pre-training with Injected La...	2022-04-26	Code
6	Y. Ge et. al.	5	No	Bridging Video-text Retrieval with Multiple Choi...	2022-01-13	Code
7	Clover	4	Yes	Clover: Towards A Unified Video-Language Alignme...	2022-07-16	Code
8	LanguageBind(ViT-H/14)	2	Yes	LanguageBind: Extending Video-Language Pretraini...	2023-10-03	Code
9	LanguageBind(ViT-L/14)	2	Yes	LanguageBind: Extending Video-Language Pretraini...	2023-10-03	Code

#1LaT
7
text-to-video Median Rank· 2022-07-11
LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval
#2M. Bain et. al.SOTA
7
text-to-video Median Rank· 2021-04-01
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval Code
#3ALPRO
6
text-to-video Median Rank· 2021-12-17
Align and Prompt: Video-and-Language Pre-training with Entity Prompts Code
#4OA-Trans
6
text-to-video Median Rank· 2021-12-01
Object-aware Video-language Pre-training for Retrieval Code
#5MILES
5
text-to-video Median Rank· 2022-04-26
MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval Code
#6Y. Ge et. al.
5
text-to-video Median Rank· 2022-01-13
Bridging Video-text Retrieval with Multiple Choice Questions Code
#7Clover
4
text-to-video Median Rank· Extra Data· 2022-07-16
Clover: Towards A Unified Video-Language Alignment and Fusion Model Code
#8LanguageBind(ViT-H/14)
2
text-to-video Median Rank· Extra Data· 2023-10-03
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment Code
#9LanguageBind(ViT-L/14)
2
text-to-video Median Rank· Extra Data· 2023-10-03
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment Code