Zero-Shot Video Retrieval on ActivityNet

Metric: text-to-video R@1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	text-to-video R@1▼	Extra Data	Paper	Date↕	Code
1	InternVideo2-6B	63.2	Yes	InternVideo2: Scaling Foundation Models for Mult...	2024-03-22	Code
2	InternVideo2-1B	60.4	Yes	InternVideo2: Scaling Foundation Models for Mult...	2024-03-22	Code
3	GRAM	59	Yes	Gramian Multimodal Representation Learning and A...	2024-12-16	Code
4	UMT-L (ViT-L/16)	42.8	Yes	Unmasked Teacher: Towards Training-Efficient Vid...	2023-03-28	Code
5	vid-TLDR (UMT-L)	42.8	Yes	vid-TLDR: Training Free Token merging for Light-...	2024-03-20	Code
6	LanguageBind(ViT-H/14)	41	Yes	LanguageBind: Extending Video-Language Pretraini...	2023-10-03	Code
7	LanguageBind(ViT-L/14)	38.4	Yes	LanguageBind: Extending Video-Language Pretraini...	2023-10-03	Code
8	BT-Adapter	37	Yes	BT-Adapter: Video Conversation is Feasible Witho...	2023-09-27	Code
9	VideoCoCa	34.5	Yes	VideoCoCa: Video-Text Modeling with Zero-Shot Tr...	2022-12-09	-
10	Singularity-temporal-5M	30.8	Yes	Revealing Single Frame Bias for Video-and-Langua...	2022-06-07	Code
11	InternVideo	30.7	Yes	InternVideo: General Video Foundation Models via...	2022-12-06	Code
12	Singularity-temporal-17M	30.6	Yes	Revealing Single Frame Bias for Video-and-Langua...	2022-06-07	Code

#1InternVideo2-6BSOTA
63.2
text-to-video R@1· Extra Data· 2024-03-22
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding Code
#2InternVideo2-1B
60.4
text-to-video R@1· Extra Data· 2024-03-22
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding Code
#3GRAM
59
text-to-video R@1· Extra Data· 2024-12-16
Gramian Multimodal Representation Learning and Alignment Code
#4UMT-L (ViT-L/16)SOTA
42.8
text-to-video R@1· Extra Data· 2023-03-28
Unmasked Teacher: Towards Training-Efficient Video Foundation Models Code
#5vid-TLDR (UMT-L)
42.8
text-to-video R@1· Extra Data· 2024-03-20
vid-TLDR: Training Free Token merging for Light-weight Video Transformer Code
#6LanguageBind(ViT-H/14)
41
text-to-video R@1· Extra Data· 2023-10-03
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment Code
#7LanguageBind(ViT-L/14)
38.4
text-to-video R@1· Extra Data· 2023-10-03
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment Code
#8BT-Adapter
37
text-to-video R@1· Extra Data· 2023-09-27
BT-Adapter: Video Conversation is Feasible Without Video Instruction Tuning Code
#9VideoCoCaSOTA
34.5
text-to-video R@1· Extra Data· 2022-12-09
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
#10Singularity-temporal-5MSOTA
30.8
text-to-video R@1· Extra Data· 2022-06-07
Revealing Single Frame Bias for Video-and-Language Learning Code
#11InternVideo
30.7
text-to-video R@1· Extra Data· 2022-12-06
InternVideo: General Video Foundation Models via Generative and Discriminative Learning Code
#12Singularity-temporal-17M
30.6
text-to-video R@1· Extra Data· 2022-06-07
Revealing Single Frame Bias for Video-and-Language Learning Code