Text-to-Video Generation on UCF-101

Metric: FVD16 (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	FVD16▼	Extra Data	Paper	Date↕	Code
1	MagicVideo (Zero-shot, 256x256)	699	No	MagicVideo: Efficient Video Generation With Late...	2022-11-20	-
2	Video LDM (Zero-shot, 320x512)	550.61	No	Align your Latents: High-Resolution Video Synthe...	2023-04-18	Code
3	LAVIE (Zero-shot, 320x512)	526.3	No	LAVIE: High-Quality Video Generation with Cascad...	2023-09-26	Code
4	PYoCo (Zero-shot, 64x64)	355.19	No	Preserve Your Own Correlation: A Noise Prior for...	2023-05-17	-
5	VideoPoet	355	No	VideoPoet: A Large Language Model for Zero-Shot ...	2023-12-21	-
6	Lumiere (Zero-shot, 1024x1024)	332.49	No	Lumiere: A Space-Time Diffusion Model for Video ...	2024-01-23	Code
7	Snap Video (Zero-shot, 288×288)	260.1	No	Snap Video: Scaled Spatiotemporal Transformers f...	2024-02-22	-
8	W.A.L.T 3B	258.1	No	Photorealistic Video Generation with Diffusion M...	2023-12-11	-
9	PixelDance (Zero-shot, 256x256)	242.82	No	Make Pixels Dance: High-Dynamic Video Generation	2023-11-18	-
10	Snap Video (Zero-shot, 512x288)	200.2	No	Snap Video: Scaled Spatiotemporal Transformers f...	2024-02-22	-

#1MagicVideo (Zero-shot, 256x256)SOTA
699
FVD16· 2022-11-20
MagicVideo: Efficient Video Generation With Latent Diffusion Models
#2Video LDM (Zero-shot, 320x512)
550.61
FVD16· 2023-04-18
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models Code
#3LAVIE (Zero-shot, 320x512)
526.3
FVD16· 2023-09-26
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models Code
#4PYoCo (Zero-shot, 64x64)
355.19
FVD16· 2023-05-17
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models
#5VideoPoet
355
FVD16· 2023-12-21
VideoPoet: A Large Language Model for Zero-Shot Video Generation
#6Lumiere (Zero-shot, 1024x1024)
332.49
FVD16· 2024-01-23
Lumiere: A Space-Time Diffusion Model for Video Generation Code
#7Snap Video (Zero-shot, 288×288)
260.1
FVD16· 2024-02-22
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
#8W.A.L.T 3B
258.1
FVD16· 2023-12-11
Photorealistic Video Generation with Diffusion Models
#9PixelDance (Zero-shot, 256x256)
242.82
FVD16· 2023-11-18
Make Pixels Dance: High-Dynamic Video Generation
#10Snap Video (Zero-shot, 512x288)
200.2
FVD16· 2024-02-22
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis