VACE: All-in-One Video Creation and Editing

Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, Yu Liu

2025-03-10Video Editing Single-Domain Subject-to-Video Open-Domain Subject-to-Video Human-Domain Subject-to-Video All Video Generation

Paper PDF Code Code

Abstract

Diffusion Transformer has demonstrated powerful capability and scalability in generating high-quality images and videos. Further pursuing the unification of generation and editing tasks has yielded significant progress in the domain of image content creation. However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approach for video synthesis remains challenging. We introduce VACE, which enables users to perform Video tasks within an All-in-one framework for Creation and Editing. These tasks include reference-to-video generation, video-to-video editing, and masked video-to-video editing. Specifically, we effectively integrate the requirements of various tasks by organizing video task inputs, such as editing, reference, and masking, into a unified interface referred to as the Video Condition Unit (VCU). Furthermore, by utilizing a Context Adapter structure, we inject different task concepts into the model using formalized representations of temporal and spatial dimensions, allowing it to handle arbitrary video synthesis tasks flexibly. Extensive experiments demonstrate that the unified model of VACE achieves performance on par with task-specific models across various subtasks. Simultaneously, it enables diverse applications through versatile task combinations. Project page: https://ali-vilab.github.io/VACE-Page/.

Results

Task	Dataset	Metric	Value	Model
Video	OpenS2V-Eval	Aesthetics	0.4721	Wan2.1-VACE-14B
Video	OpenS2V-Eval	FaceSim	0.5509	Wan2.1-VACE-14B
Video	OpenS2V-Eval	GmeScore	0.6727	Wan2.1-VACE-14B
Video	OpenS2V-Eval	Motion	0.1502	Wan2.1-VACE-14B
Video	OpenS2V-Eval	NaturalScore	0.7278	Wan2.1-VACE-14B
Video	OpenS2V-Eval	NexusScore	0.442	Wan2.1-VACE-14B
Video	OpenS2V-Eval	Total Score	0.5287	Wan2.1-VACE-14B
Video	OpenS2V-Eval	Aesthetics	0.4824	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	FaceSim	0.2058	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	GmeScore	0.7126	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	Motion	0.1883	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	NaturalScore	0.7178	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	NexusScore	0.3795	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	Total Score	0.4553	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	Aesthetics	0.4727	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	FaceSim	0.1658	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	GmeScore	0.7138	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	Motion	0.1203	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	NaturalScore	0.7056	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	NexusScore	0.4004	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	Total Score	0.4395	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	Aesthetics	0.4721	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	FaceSim	0.5509	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	GmeScore	0.6727	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	Motion	0.1502	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	NaturalScore	0.7278	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	NexusScore	0.442	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	Total Score	0.5287	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	Aesthetics	0.4824	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	FaceSim	0.2058	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	GmeScore	0.7126	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	Motion	0.1883	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	NaturalScore	0.7178	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	NexusScore	0.3795	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	Total Score	0.4553	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	Aesthetics	0.4727	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	FaceSim	0.1658	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	GmeScore	0.7138	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	Motion	0.1203	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	NaturalScore	0.7056	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	NexusScore	0.4004	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	Total Score	0.4395	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	Aesthetics	0.4721	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	FaceSim	0.5509	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	GmeScore	0.6727	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Motion	0.1502	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	NaturalScore	0.7278	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	NexusScore	0.442	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Total Score	0.5287	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Aesthetics	0.4824	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	FaceSim	0.2058	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	GmeScore	0.7126	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Motion	0.1883	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	NaturalScore	0.7178	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	NexusScore	0.3795	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Total Score	0.4553	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Aesthetics	0.4727	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	FaceSim	0.1658	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	GmeScore	0.7138	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	Motion	0.1203	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	NaturalScore	0.7056	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	NexusScore	0.4004	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	Total Score	0.4395	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	Aesthetics	0.4721	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	FaceSim	0.5509	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	GmeScore	0.6727	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	Motion	0.1502	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	NaturalScore	0.7278	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	NexusScore	0.442	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	Total Score	0.5287	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	Aesthetics	0.4824	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	FaceSim	0.2058	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	GmeScore	0.7126	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	Motion	0.1883	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	NaturalScore	0.7178	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	NexusScore	0.3795	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	Total Score	0.4553	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	Aesthetics	0.4727	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	FaceSim	0.1658	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	GmeScore	0.7138	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	Motion	0.1203	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	NaturalScore	0.7056	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	NexusScore	0.4004	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	Total Score	0.4395	Wan2.1-VACE-1.3B-Preview

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	OpenS2V-Eval	Aesthetics	0.4721	Wan2.1-VACE-14B
Video	OpenS2V-Eval	FaceSim	0.5509	Wan2.1-VACE-14B
Video	OpenS2V-Eval	GmeScore	0.6727	Wan2.1-VACE-14B
Video	OpenS2V-Eval	Motion	0.1502	Wan2.1-VACE-14B
Video	OpenS2V-Eval	NaturalScore	0.7278	Wan2.1-VACE-14B
Video	OpenS2V-Eval	NexusScore	0.442	Wan2.1-VACE-14B
Video	OpenS2V-Eval	Total Score	0.5287	Wan2.1-VACE-14B
Video	OpenS2V-Eval	Aesthetics	0.4824	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	FaceSim	0.2058	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	GmeScore	0.7126	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	Motion	0.1883	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	NaturalScore	0.7178	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	NexusScore	0.3795	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	Total Score	0.4553	Wan2.1-VACE-1.3B
Video	OpenS2V-Eval	Aesthetics	0.4727	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	FaceSim	0.1658	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	GmeScore	0.7138	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	Motion	0.1203	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	NaturalScore	0.7056	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	NexusScore	0.4004	Wan2.1-VACE-1.3B-Preview
Video	OpenS2V-Eval	Total Score	0.4395	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	Aesthetics	0.4721	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	FaceSim	0.5509	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	GmeScore	0.6727	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	Motion	0.1502	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	NaturalScore	0.7278	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	NexusScore	0.442	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	Total Score	0.5287	Wan2.1-VACE-14B
Video Generation	OpenS2V-Eval	Aesthetics	0.4824	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	FaceSim	0.2058	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	GmeScore	0.7126	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	Motion	0.1883	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	NaturalScore	0.7178	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	NexusScore	0.3795	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	Total Score	0.4553	Wan2.1-VACE-1.3B
Video Generation	OpenS2V-Eval	Aesthetics	0.4727	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	FaceSim	0.1658	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	GmeScore	0.7138	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	Motion	0.1203	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	NaturalScore	0.7056	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	NexusScore	0.4004	Wan2.1-VACE-1.3B-Preview
Video Generation	OpenS2V-Eval	Total Score	0.4395	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	Aesthetics	0.4721	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	FaceSim	0.5509	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	GmeScore	0.6727	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Motion	0.1502	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	NaturalScore	0.7278	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	NexusScore	0.442	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Total Score	0.5287	Wan2.1-VACE-14B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Aesthetics	0.4824	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	FaceSim	0.2058	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	GmeScore	0.7126	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Motion	0.1883	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	NaturalScore	0.7178	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	NexusScore	0.3795	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Total Score	0.4553	Wan2.1-VACE-1.3B
1 Image, 2*2 Stitchi	OpenS2V-Eval	Aesthetics	0.4727	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	FaceSim	0.1658	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	GmeScore	0.7138	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	Motion	0.1203	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	NaturalScore	0.7056	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	NexusScore	0.4004	Wan2.1-VACE-1.3B-Preview
1 Image, 2*2 Stitchi	OpenS2V-Eval	Total Score	0.4395	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	Aesthetics	0.4721	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	FaceSim	0.5509	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	GmeScore	0.6727	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	Motion	0.1502	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	NaturalScore	0.7278	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	NexusScore	0.442	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	Total Score	0.5287	Wan2.1-VACE-14B
Image to Video Generation	OpenS2V-Eval	Aesthetics	0.4824	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	FaceSim	0.2058	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	GmeScore	0.7126	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	Motion	0.1883	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	NaturalScore	0.7178	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	NexusScore	0.3795	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	Total Score	0.4553	Wan2.1-VACE-1.3B
Image to Video Generation	OpenS2V-Eval	Aesthetics	0.4727	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	FaceSim	0.1658	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	GmeScore	0.7138	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	Motion	0.1203	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	NaturalScore	0.7056	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	NexusScore	0.4004	Wan2.1-VACE-1.3B-Preview
Image to Video Generation	OpenS2V-Eval	Total Score	0.4395	Wan2.1-VACE-1.3B-Preview

VACE: All-in-One Video Creation and Editing

Abstract

Results

Related Papers

VACE: All-in-One Video Creation and Editing

Abstract

Results

Related Papers