Video on MSR-VTT

Metric: video-to-text R@5 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	video-to-text R@5▼	Extra Data	Paper	Date↕	Code
1	CAMoE	86.2	Yes	Improving Video-Text Retrieval by Multi-Stream C...	2021-09-09	Code
2	VideoCoCa (zero-shot)	85.2	Yes	VideoCoCa: Video-Text Modeling with Zero-Shot Tr...	2022-12-09	-
3	CLIP2Video	82.1	Yes	CLIP2Video: Mastering Video-Text Retrieval via I...	2021-06-21	Code
4	UMT-L (ViT-L/16)	81.6	Yes	Unmasked Teacher: Towards Training-Efficient Vid...	2023-03-28	Code
5	vid-TLDR (UMT-L)	81.6	Yes	vid-TLDR: Training Free Token merging for Light-...	2024-03-20	Code
6	CoCa (zero-shot)	73.4	Yes	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
7	CLIP	69.7	No	A Straightforward Framework For Video Retrieval ...	2021-02-24	Code
8	Ours	56.5	No	Video and Text Matching with Conditioned Embeddi...	2021-10-21	Code
9	Collaborative Experts	40.9	No	Use What You Have: Video Retrieval Using Represe...	2019-07-31	Code
10	Text-Video Embedding	40.2	No	HowTo100M: Learning a Text-Video Embedding by Wa...	2019-06-07	Code
11	JEMC	32.1	No	-	-	Code
12	JSFusion	31.2	No	A Joint Sequence Fusion Model for Video Question...	2018-08-07	Code
13	Kaufman	16.6	No	Temporal Tessellation: A Unified Approach for Vi...	2016-12-21	Code
14	C+LSTM+SA+FC7	12.9	No	Learning Language-Visual Embedding for Movie Und...	2016-09-26	-

#1CAMoESOTA
86.2
video-to-text R@5· Extra Data· 2021-09-09
Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss Code
#2VideoCoCa (zero-shot)
85.2
video-to-text R@5· Extra Data· 2022-12-09
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
#3CLIP2VideoSOTA
82.1
video-to-text R@5· Extra Data· 2021-06-21
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP Code
#4UMT-L (ViT-L/16)
81.6
video-to-text R@5· Extra Data· 2023-03-28
Unmasked Teacher: Towards Training-Efficient Video Foundation Models Code
#5vid-TLDR (UMT-L)
81.6
video-to-text R@5· Extra Data· 2024-03-20
vid-TLDR: Training Free Token merging for Light-weight Video Transformer Code
#6CoCa (zero-shot)
73.4
video-to-text R@5· Extra Data· 2022-05-04
CoCa: Contrastive Captioners are Image-Text Foundation Models Code
#7CLIPSOTA
69.7
video-to-text R@5· 2021-02-24
A Straightforward Framework For Video Retrieval Using CLIP Code
#8Ours
56.5
video-to-text R@5· 2021-10-21
Video and Text Matching with Conditioned Embeddings Code
#9Collaborative ExpertsSOTA
40.9
video-to-text R@5· 2019-07-31
Use What You Have: Video Retrieval Using Representations From Collaborative Experts Code
#10Text-Video EmbeddingSOTA
40.2
video-to-text R@5· 2019-06-07
HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips Code
#11JEMC
32.1
video-to-text R@5
No paperCode
#12JSFusionSOTA
31.2
video-to-text R@5· 2018-08-07
A Joint Sequence Fusion Model for Video Question Answering and Retrieval Code
#13KaufmanSOTA
16.6
video-to-text R@5· 2016-12-21
Temporal Tessellation: A Unified Approach for Video Analysis Code
#14C+LSTM+SA+FC7SOTA
12.9
video-to-text R@5· 2016-09-26
Learning Language-Visual Embedding for Movie Understanding with Natural-Language