Video on YouCook2

Metric: text-to-video R@5 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

#	Model↕	text-to-video R@5▼	Extra Data	Paper	Date↕	Code
1	VAST	74.3	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
2	MDMMT-2	64	Yes	MDMMT-2: Multidomain Multimodal Transformer for ...	2022-03-14	-
3	UniVL + MELTR	63.1	No	MELTR: Meta Loss Transformer for Learning to Fin...	2023-03-23	Code
4	VideoCLIP	62.6	Yes	VideoCLIP: Contrastive Pre-training for Zero-sho...	2021-09-28	Code
5	TACo	59.7	Yes	TACo: Token-aware Cascade Contrastive Learning f...	2021-08-23	-
6	UniVL	57.6	Yes	UniVL: A Unified Video and Language Pre-Training...	2020-02-15	Code
7	VLM	56.88	Yes	VLM: Task-agnostic Video-Language Model Pre-trai...	2021-05-20	Code
8	VideoCLIP (zero-shot)	50.4	Yes	VideoCLIP: Contrastive Pre-training for Zero-sho...	2021-09-28	Code
9	VideoCoCa (zero-shot)	43.9	No	VideoCoCa: Video-Text Modeling with Zero-Shot Tr...	2022-12-09	-
10	Text-Video Embedding	24.5	No	HowTo100M: Learning a Text-Video Embedding by Wa...	2019-06-07	Code
11	RoME	16.9	No	RoME: Role-aware Mixture-of-Expert Transformer f...	2022-06-26	Code
12	Satar et al.	14.5	No	Semantic Role Aware Correlation Transformer for ...	2022-06-26	Code
13	HGLMM FV CCA	14.3	No	-	-	-