Audio Generation on VGG-Sound

Metric: FAD (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	FAD▼	Extra Data	Paper	Date↕	Code
1	VATT-LLama	2.38	No	Tell What You Hear From What You See -- Video to...	2024-11-08	Code
2	ReWas	2.16	No	Read, Watch and Scream! Sound Generation from Te...	2024-07-08	Code
3	MaskVAT_Hybrid	2.04	No	Masked Generative Video-to-Audio Transformers wi...	2024-07-15	-
4	V-AURA	1.92	No	Temporally Aligned Audio for Video with Autoregr...	2024-09-20	Code
5	Frieren	1.32	No	Frieren: Efficient Video-to-Audio Generation Net...	2024-06-01	Code
6	MMAudio-L-44.1kHz	0.97	No	MMAudio: Taming Multimodal Joint Training for Hi...	2024-12-19	Code
7	V2A-Mapper	0.841	No	V2A-Mapper: A Lightweight Solution for Vision-to...	2023-08-18	Code
8	MMAudio-S-16kHz	0.79	No	MMAudio: Taming Multimodal Joint Training for Hi...	2024-12-19	Code

#1VATT-LLamaSOTA
2.38
FAD· 2024-11-08
Tell What You Hear From What You See -- Video to Audio Generation Through Text Code
#2ReWasSOTA
2.16
FAD· 2024-07-08
Read, Watch and Scream! Sound Generation from Text and Video Code
#3MaskVAT_Hybrid
2.04
FAD· 2024-07-15
Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity
#4V-AURA
1.92
FAD· 2024-09-20
Temporally Aligned Audio for Video with Autoregression Code
#5FrierenSOTA
1.32
FAD· 2024-06-01
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching Code
#6MMAudio-L-44.1kHz
0.97
FAD· 2024-12-19
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis Code
#7V2A-MapperSOTA
0.841
FAD· 2023-08-18
V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models Code
#8MMAudio-S-16kHz
0.79
FAD· 2024-12-19
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis Code