MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji

2024-12-19CVPR 2025 1Video-to-Sound Generation Audio-Visual Synchronization Audio Generation Audio Synthesis

Abstract

We propose to synthesize high-quality and synchronized audio, given video and optional text conditions, using a novel multimodal joint training framework MMAudio. In contrast to single-modality training conditioned on (limited) video data only, MMAudio is jointly trained with larger-scale, readily available text-audio data to learn to generate semantically aligned high-quality audio samples. Additionally, we improve audio-visual synchrony with a conditional synchronization module that aligns video conditions with audio latents at the frame level. Trained with a flow matching objective, MMAudio achieves new video-to-audio state-of-the-art among public models in terms of audio quality, semantic alignment, and audio-visual synchronization, while having a low inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio also achieves surprisingly competitive performance in text-to-audio generation, showing that joint training does not hinder single-modality performance. Code and demo are available at: https://hkchengrex.github.io/MMAudio

Results

Task	Dataset	Metric	Value	Model
Audio Generation	VGG-Sound	FAD	0.79	MMAudio-S-16kHz
Audio Generation	VGG-Sound	FD	5.22	MMAudio-S-16kHz
Audio Generation	VGG-Sound	FAD	0.97	MMAudio-L-44.1kHz
Audio Generation	VGG-Sound	FD	4.72	MMAudio-L-44.1kHz

Related Papers

FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation2025-07-11 MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling2025-07-11 ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing2025-06-26 Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance2025-06-26 Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation2025-06-24 LiLAC: A Lightweight Latent ControlNet for Musical Audio Generation2025-06-13 ViSAGe: Video-to-Spatial Audio Generation2025-06-13 BemaGANv2: A Tutorial and Comparative Survey of GAN-based Vocoders for Long-Term Audio Generation2025-06-11