Video Retrieval on MSR-VTT

Metric: text-to-video R@5 (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	text-to-video R@5▼	Extra Data	Paper	Date↕	Code
1	VAST	84.3	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
2	VALOR	83.5	Yes	VALOR: Vision-Audio-Language Omni-Perception Pre...	2023-04-17	Code
3	UMT-L (ViT-L/16)	81	Yes	Unmasked Teacher: Towards Training-Efficient Vid...	2023-03-28	Code
4	vid-TLDR (UMT-L)	81	Yes	vid-TLDR: Training Free Token merging for Light-...	2024-03-20	Code
5	VLAB	78.8	Yes	VLAB: Enhancing Video Language Pre-training by F...	2023-05-22	-
6	TEFAL	76.6	No	Audio-Enhanced Text-to-Video Retrieval using Tex...	2023-07-24	-
7	All-in-one + MELTR	74.4	Yes	MELTR: Meta Loss Transformer for Learning to Fin...	2023-03-23	Code
8	OmniVL	74.2	Yes	OmniVL:One Foundation Model for Image-Language a...	2022-09-15	-
9	Aurora (ours, r=64)	73.9	No	-	-	-
10	UCoFiA	72.1	No	Unified Coarse-to-Fine Alignment for Video-Text ...	2023-09-18	Code
11	CLIP4Clip-seqTransf	71.4	No	CLIP4Clip: An Empirical Study of CLIP for End to...	2021-04-18	Code
12	HD-VILA	65.3	No	Advancing High-Resolution Video-Language Represe...	2021-11-19	Code
13	VIOLETv2	64.8	Yes	An Empirical Study of End-to-End Video-Language ...	2022-09-04	Code
14	VIOLET + MELTR	63.7	No	MELTR: Meta Loss Transformer for Learning to Fin...	2023-03-23	Code
15	FROZEN	61.5	No	Frozen in Time: A Joint Video and Image Encoder ...	2021-04-01	Code
16	COTS	60.8	No	COTS: Collaborative Two-Stream Vision-Language P...	2022-04-15	-
17	MDMMT-2	60.5	Yes	MDMMT-2: Multidomain Multimodal Transformer for ...	2022-03-14	-
18	CLIP2TV	58.9	Yes	CLIP2TV: Align, Match and Distill for Video-Text...	2021-11-10	-
19	CAMoE	58.3	Yes	Improving Video-Text Retrieval by Multi-Stream C...	2021-09-09	Code
20	VideoCoCa (zero-shot)	57.8	Yes	VideoCoCa: Video-Text Modeling with Zero-Shot Tr...	2022-12-09	-
21	Ours	56.7	No	Video and Text Matching with Conditioned Embeddi...	2021-10-21	Code
22	CLIP2Video	55.5	Yes	CLIP2Video: Mastering Video-Text Retrieval via I...	2021-06-21	Code
23	UniVL + MELTR	55.5	No	MELTR: Meta Loss Transformer for Learning to Fin...	2023-03-23	Code
24	LAFF	54.9	No	Lightweight Attentional Feature Fusion: A New Ba...	2021-12-03	Code
25	CoCa (zero-shot)	52.4	Yes	CoCa: Contrastive Captioners are Image-Text Foun...	2022-05-04	Code
26	TACo	52.1	Yes	TACo: Token-aware Cascade Contrastive Learning f...	2021-08-23	-
27	MDMMT	49.8	Yes	MDMMT: Multidomain Multimodal Transformer for Vi...	2021-03-19	Code
28	UniVL	49.6	Yes	UniVL: A Unified Video and Language Pre-Training...	2020-02-15	Code
29	CLIP	41.1	No	A Straightforward Framework For Video Retrieval ...	2021-02-24	Code
30	RoME	29.6	No	RoME: Role-aware Mixture-of-Expert Transformer f...	2022-06-26	Code
31	Collaborative Experts	29	No	Use What You Have: Video Retrieval Using Represe...	2019-07-31	Code
32	JEMC	20.9	No	-	-	Code

#1VASTSOTA
84.3
text-to-video R@5· Extra Data· 2023-05-29
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Code
#2VALORSOTA
83.5
text-to-video R@5· Extra Data· 2023-04-17
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Code
#3UMT-L (ViT-L/16)SOTA
81
text-to-video R@5· Extra Data· 2023-03-28
Unmasked Teacher: Towards Training-Efficient Video Foundation Models Code
#4vid-TLDR (UMT-L)
81
text-to-video R@5· Extra Data· 2024-03-20
vid-TLDR: Training Free Token merging for Light-weight Video Transformer Code
#5VLAB
78.8
text-to-video R@5· Extra Data· 2023-05-22
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending
#6TEFAL
76.6
text-to-video R@5· 2023-07-24
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment
#7All-in-one + MELTRSOTA
74.4
text-to-video R@5· Extra Data· 2023-03-23
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models Code
#8OmniVLSOTA
74.2
text-to-video R@5· Extra Data· 2022-09-15
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks
#9Aurora (ours, r=64)
73.9
text-to-video R@5
No paper
#10UCoFiA
72.1
text-to-video R@5· 2023-09-18
Unified Coarse-to-Fine Alignment for Video-Text Retrieval Code
#11CLIP4Clip-seqTransfSOTA
71.4
text-to-video R@5· 2021-04-18
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Code
#12HD-VILA
65.3
text-to-video R@5· 2021-11-19
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions Code
#13VIOLETv2
64.8
text-to-video R@5· Extra Data· 2022-09-04
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling Code
#14VIOLET + MELTR
63.7
text-to-video R@5· 2023-03-23
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models Code
#15FROZENSOTA
61.5
text-to-video R@5· 2021-04-01
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval Code
#16COTS
60.8
text-to-video R@5· 2022-04-15
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval
#17MDMMT-2
60.5
text-to-video R@5· Extra Data· 2022-03-14
MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization
#18CLIP2TV
58.9
text-to-video R@5· Extra Data· 2021-11-10
CLIP2TV: Align, Match and Distill for Video-Text Retrieval
#19CAMoE
58.3
text-to-video R@5· Extra Data· 2021-09-09
Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss Code
#20VideoCoCa (zero-shot)
57.8
text-to-video R@5· Extra Data· 2022-12-09
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
#21Ours
56.7
text-to-video R@5· 2021-10-21
Video and Text Matching with Conditioned Embeddings Code
#22CLIP2Video
55.5
text-to-video R@5· Extra Data· 2021-06-21
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP Code
#23UniVL + MELTR
55.5
text-to-video R@5· 2023-03-23
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models Code
#24LAFF
54.9
text-to-video R@5· 2021-12-03
Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval Code
#25CoCa (zero-shot)
52.4
text-to-video R@5· Extra Data· 2022-05-04
CoCa: Contrastive Captioners are Image-Text Foundation Models Code
#26TACo
52.1
text-to-video R@5· Extra Data· 2021-08-23
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment
#27MDMMTSOTA
49.8
text-to-video R@5· Extra Data· 2021-03-19
MDMMT: Multidomain Multimodal Transformer for Video Retrieval Code
#28UniVLSOTA
49.6
text-to-video R@5· Extra Data· 2020-02-15
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation Code
#29CLIP
41.1
text-to-video R@5· 2021-02-24
A Straightforward Framework For Video Retrieval Using CLIP Code
#30RoME
29.6
text-to-video R@5· 2022-06-26
RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video Retrieval Code
#31Collaborative ExpertsSOTA
29
text-to-video R@5· 2019-07-31
Use What You Have: Video Retrieval Using Representations From Collaborative Experts Code
#32JEMC
20.9
text-to-video R@5
No paperCode