Text-to-Video Generation on MSR-VTT

Metric: FID (lower is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	FID▲	Extra Data	Paper	Date↕	Code
1	TF-T2V	8.19	No	A Recipe for Scaling up Text-to-Video Generation...	2023-12-25	Code
2	HiGen	8.6	No	Hierarchical Spatio-temporal Decoupling for Text...	2023-12-07	Code
3	ModelScopeT2V	11.09	No	ModelScope Text-to-Video Technical Report	2023-08-12	Code
4	Video-LaVIT	11.27	No	Video-LaVIT: Unified Video-Language Pre-training...	2024-02-05	Code
5	Show-1	13.08	No	Show-1: Marrying Pixel and Latent Diffusion Mode...	2023-09-27	Code
6	Make-A-Video	13.17	No	Make-A-Video: Text-to-Video Generation without T...	2022-09-29	Code
7	MMVG	23.4	No	Tell Me What Happened: Unifying Text-guided Vide...	2022-11-23	Code
8	CogVideo (English)	23.59	No	Make-A-Video: Text-to-Video Generation without T...	2022-09-29	Code
9	MagicVideo	36.5	No	MagicVideo: Efficient Video Generation With Late...	2022-11-20	-
10	NUWA	47.68	No	NÜWA: Visual Synthesis Pre-training for Neural v...	2021-11-24	Code

#1TF-T2VSOTA
8.19
FID· 2023-12-25
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos Code
#2HiGenSOTA
8.6
FID· 2023-12-07
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation Code
#3ModelScopeT2VSOTA
11.09
FID· 2023-08-12
ModelScope Text-to-Video Technical Report Code
#4Video-LaVIT
11.27
FID· 2024-02-05
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization Code
#5Show-1
13.08
FID· 2023-09-27
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation Code
#6Make-A-VideoSOTA
13.17
FID· 2022-09-29
Make-A-Video: Text-to-Video Generation without Text-Video Data Code
#7MMVG
23.4
FID· 2022-11-23
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Code
#8CogVideo (English)SOTA
23.59
FID· 2022-09-29
Make-A-Video: Text-to-Video Generation without Text-Video Data Code
#9MagicVideo
36.5
FID· 2022-11-20
MagicVideo: Efficient Video Generation With Latent Diffusion Models
#10NUWASOTA
47.68
FID· 2021-11-24
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Code