Inversion-Free Image Editing with Natural Language

Sihan Xu, Yidong Huang, Jiayi Pan, Ziqiao Ma, Joyce Chai

2023-12-07Image Manipulation Text-based Image Editing

Abstract

Despite recent advances in inversion-based editing, text-guided image manipulation remains challenging for diffusion models. The primary bottlenecks include 1) the time-consuming nature of the inversion process; 2) the struggle to balance consistency with accuracy; 3) the lack of compatibility with efficient consistency sampling methods used in consistency models. To address the above issues, we start by asking ourselves if the inversion process can be eliminated for editing. We show that when the initial sample is known, a special variance schedule reduces the denoising step to the same form as the multi-step consistency sampling. We name this Denoising Diffusion Consistent Model (DDCM), and note that it implies a virtual inversion strategy without explicit inversion in sampling. We further unify the attention control mechanisms in a tuning-free framework for text-guided editing. Combining them, we present inversion-free editing (InfEdit), which allows for consistent and faithful editing for both rigid and non-rigid semantic changes, catering to intricate modifications without compromising on the image's integrity and explicit inversion. Through extensive experiments, InfEdit shows strong performance in various editing tasks and also maintains a seamless workflow (less than 3 seconds on one single A40), demonstrating the potential for real-time applications. Project Page: https://sled-group.github.io/InfEdit/

Results

Task	Dataset	Metric	Value	Model
Image Generation	PIE-Bench	Background LPIPS	47.58	Virtual Inversion+Unified Attention Control+LCM
Image Generation	PIE-Bench	Background PSNR	28.51	Virtual Inversion+Unified Attention Control+LCM
Image Generation	PIE-Bench	CLIPSIM	25.03	Virtual Inversion+Unified Attention Control+LCM
Image Generation	PIE-Bench	Structure Distance	13.78	Virtual Inversion+Unified Attention Control+LCM
Image Generation	PIE-Bench	Background LPIPS	47.98	Virtual Inversion+Prompt-to-Prompt
Image Generation	PIE-Bench	Background PSNR	27.52	Virtual Inversion+Prompt-to-Prompt
Image Generation	PIE-Bench	CLIPSIM	24.89	Virtual Inversion+Prompt-to-Prompt
Image Generation	PIE-Bench	Structure Distance	14.22	Virtual Inversion+Prompt-to-Prompt
Image Generation	PIE-Bench	Background LPIPS	55.85	Virtual Inversion+Prompt-to-Prompt+LCM
Image Generation	PIE-Bench	Background PSNR	26.64	Virtual Inversion+Prompt-to-Prompt+LCM
Image Generation	PIE-Bench	CLIPSIM	24.57	Virtual Inversion+Prompt-to-Prompt+LCM
Image Generation	PIE-Bench	Structure Distance	15.61	Virtual Inversion+Prompt-to-Prompt+LCM
Text-to-Image Generation	PIE-Bench	Background LPIPS	47.58	Virtual Inversion+Unified Attention Control+LCM
Text-to-Image Generation	PIE-Bench	Background PSNR	28.51	Virtual Inversion+Unified Attention Control+LCM
Text-to-Image Generation	PIE-Bench	CLIPSIM	25.03	Virtual Inversion+Unified Attention Control+LCM
Text-to-Image Generation	PIE-Bench	Structure Distance	13.78	Virtual Inversion+Unified Attention Control+LCM
Text-to-Image Generation	PIE-Bench	Background LPIPS	47.98	Virtual Inversion+Prompt-to-Prompt
Text-to-Image Generation	PIE-Bench	Background PSNR	27.52	Virtual Inversion+Prompt-to-Prompt
Text-to-Image Generation	PIE-Bench	CLIPSIM	24.89	Virtual Inversion+Prompt-to-Prompt
Text-to-Image Generation	PIE-Bench	Structure Distance	14.22	Virtual Inversion+Prompt-to-Prompt
Text-to-Image Generation	PIE-Bench	Background LPIPS	55.85	Virtual Inversion+Prompt-to-Prompt+LCM
Text-to-Image Generation	PIE-Bench	Background PSNR	26.64	Virtual Inversion+Prompt-to-Prompt+LCM
Text-to-Image Generation	PIE-Bench	CLIPSIM	24.57	Virtual Inversion+Prompt-to-Prompt+LCM
Text-to-Image Generation	PIE-Bench	Structure Distance	15.61	Virtual Inversion+Prompt-to-Prompt+LCM
10-shot image generation	PIE-Bench	Background LPIPS	47.58	Virtual Inversion+Unified Attention Control+LCM
10-shot image generation	PIE-Bench	Background PSNR	28.51	Virtual Inversion+Unified Attention Control+LCM
10-shot image generation	PIE-Bench	CLIPSIM	25.03	Virtual Inversion+Unified Attention Control+LCM
10-shot image generation	PIE-Bench	Structure Distance	13.78	Virtual Inversion+Unified Attention Control+LCM
10-shot image generation	PIE-Bench	Background LPIPS	47.98	Virtual Inversion+Prompt-to-Prompt
10-shot image generation	PIE-Bench	Background PSNR	27.52	Virtual Inversion+Prompt-to-Prompt
10-shot image generation	PIE-Bench	CLIPSIM	24.89	Virtual Inversion+Prompt-to-Prompt
10-shot image generation	PIE-Bench	Structure Distance	14.22	Virtual Inversion+Prompt-to-Prompt
10-shot image generation	PIE-Bench	Background LPIPS	55.85	Virtual Inversion+Prompt-to-Prompt+LCM
10-shot image generation	PIE-Bench	Background PSNR	26.64	Virtual Inversion+Prompt-to-Prompt+LCM
10-shot image generation	PIE-Bench	CLIPSIM	24.57	Virtual Inversion+Prompt-to-Prompt+LCM
10-shot image generation	PIE-Bench	Structure Distance	15.61	Virtual Inversion+Prompt-to-Prompt+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Background LPIPS	47.58	Virtual Inversion+Unified Attention Control+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Background PSNR	28.51	Virtual Inversion+Unified Attention Control+LCM
1 Image, 2*2 Stitchi	PIE-Bench	CLIPSIM	25.03	Virtual Inversion+Unified Attention Control+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Structure Distance	13.78	Virtual Inversion+Unified Attention Control+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Background LPIPS	47.98	Virtual Inversion+Prompt-to-Prompt
1 Image, 2*2 Stitchi	PIE-Bench	Background PSNR	27.52	Virtual Inversion+Prompt-to-Prompt
1 Image, 2*2 Stitchi	PIE-Bench	CLIPSIM	24.89	Virtual Inversion+Prompt-to-Prompt
1 Image, 2*2 Stitchi	PIE-Bench	Structure Distance	14.22	Virtual Inversion+Prompt-to-Prompt
1 Image, 2*2 Stitchi	PIE-Bench	Background LPIPS	55.85	Virtual Inversion+Prompt-to-Prompt+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Background PSNR	26.64	Virtual Inversion+Prompt-to-Prompt+LCM
1 Image, 2*2 Stitchi	PIE-Bench	CLIPSIM	24.57	Virtual Inversion+Prompt-to-Prompt+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Structure Distance	15.61	Virtual Inversion+Prompt-to-Prompt+LCM

Abstract

Results

Task	Dataset	Metric	Value	Model
Image Generation	PIE-Bench	Background LPIPS	47.58	Virtual Inversion+Unified Attention Control+LCM
Image Generation	PIE-Bench	Background PSNR	28.51	Virtual Inversion+Unified Attention Control+LCM
Image Generation	PIE-Bench	CLIPSIM	25.03	Virtual Inversion+Unified Attention Control+LCM
Image Generation	PIE-Bench	Structure Distance	13.78	Virtual Inversion+Unified Attention Control+LCM
Image Generation	PIE-Bench	Background LPIPS	47.98	Virtual Inversion+Prompt-to-Prompt
Image Generation	PIE-Bench	Background PSNR	27.52	Virtual Inversion+Prompt-to-Prompt
Image Generation	PIE-Bench	CLIPSIM	24.89	Virtual Inversion+Prompt-to-Prompt
Image Generation	PIE-Bench	Structure Distance	14.22	Virtual Inversion+Prompt-to-Prompt
Image Generation	PIE-Bench	Background LPIPS	55.85	Virtual Inversion+Prompt-to-Prompt+LCM
Image Generation	PIE-Bench	Background PSNR	26.64	Virtual Inversion+Prompt-to-Prompt+LCM
Image Generation	PIE-Bench	CLIPSIM	24.57	Virtual Inversion+Prompt-to-Prompt+LCM
Image Generation	PIE-Bench	Structure Distance	15.61	Virtual Inversion+Prompt-to-Prompt+LCM
Text-to-Image Generation	PIE-Bench	Background LPIPS	47.58	Virtual Inversion+Unified Attention Control+LCM
Text-to-Image Generation	PIE-Bench	Background PSNR	28.51	Virtual Inversion+Unified Attention Control+LCM
Text-to-Image Generation	PIE-Bench	CLIPSIM	25.03	Virtual Inversion+Unified Attention Control+LCM
Text-to-Image Generation	PIE-Bench	Structure Distance	13.78	Virtual Inversion+Unified Attention Control+LCM
Text-to-Image Generation	PIE-Bench	Background LPIPS	47.98	Virtual Inversion+Prompt-to-Prompt
Text-to-Image Generation	PIE-Bench	Background PSNR	27.52	Virtual Inversion+Prompt-to-Prompt
Text-to-Image Generation	PIE-Bench	CLIPSIM	24.89	Virtual Inversion+Prompt-to-Prompt
Text-to-Image Generation	PIE-Bench	Structure Distance	14.22	Virtual Inversion+Prompt-to-Prompt
Text-to-Image Generation	PIE-Bench	Background LPIPS	55.85	Virtual Inversion+Prompt-to-Prompt+LCM
Text-to-Image Generation	PIE-Bench	Background PSNR	26.64	Virtual Inversion+Prompt-to-Prompt+LCM
Text-to-Image Generation	PIE-Bench	CLIPSIM	24.57	Virtual Inversion+Prompt-to-Prompt+LCM
Text-to-Image Generation	PIE-Bench	Structure Distance	15.61	Virtual Inversion+Prompt-to-Prompt+LCM
10-shot image generation	PIE-Bench	Background LPIPS	47.58	Virtual Inversion+Unified Attention Control+LCM
10-shot image generation	PIE-Bench	Background PSNR	28.51	Virtual Inversion+Unified Attention Control+LCM
10-shot image generation	PIE-Bench	CLIPSIM	25.03	Virtual Inversion+Unified Attention Control+LCM
10-shot image generation	PIE-Bench	Structure Distance	13.78	Virtual Inversion+Unified Attention Control+LCM
10-shot image generation	PIE-Bench	Background LPIPS	47.98	Virtual Inversion+Prompt-to-Prompt
10-shot image generation	PIE-Bench	Background PSNR	27.52	Virtual Inversion+Prompt-to-Prompt
10-shot image generation	PIE-Bench	CLIPSIM	24.89	Virtual Inversion+Prompt-to-Prompt
10-shot image generation	PIE-Bench	Structure Distance	14.22	Virtual Inversion+Prompt-to-Prompt
10-shot image generation	PIE-Bench	Background LPIPS	55.85	Virtual Inversion+Prompt-to-Prompt+LCM
10-shot image generation	PIE-Bench	Background PSNR	26.64	Virtual Inversion+Prompt-to-Prompt+LCM
10-shot image generation	PIE-Bench	CLIPSIM	24.57	Virtual Inversion+Prompt-to-Prompt+LCM
10-shot image generation	PIE-Bench	Structure Distance	15.61	Virtual Inversion+Prompt-to-Prompt+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Background LPIPS	47.58	Virtual Inversion+Unified Attention Control+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Background PSNR	28.51	Virtual Inversion+Unified Attention Control+LCM
1 Image, 2*2 Stitchi	PIE-Bench	CLIPSIM	25.03	Virtual Inversion+Unified Attention Control+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Structure Distance	13.78	Virtual Inversion+Unified Attention Control+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Background LPIPS	47.98	Virtual Inversion+Prompt-to-Prompt
1 Image, 2*2 Stitchi	PIE-Bench	Background PSNR	27.52	Virtual Inversion+Prompt-to-Prompt
1 Image, 2*2 Stitchi	PIE-Bench	CLIPSIM	24.89	Virtual Inversion+Prompt-to-Prompt
1 Image, 2*2 Stitchi	PIE-Bench	Structure Distance	14.22	Virtual Inversion+Prompt-to-Prompt
1 Image, 2*2 Stitchi	PIE-Bench	Background LPIPS	55.85	Virtual Inversion+Prompt-to-Prompt+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Background PSNR	26.64	Virtual Inversion+Prompt-to-Prompt+LCM
1 Image, 2*2 Stitchi	PIE-Bench	CLIPSIM	24.57	Virtual Inversion+Prompt-to-Prompt+LCM
1 Image, 2*2 Stitchi	PIE-Bench	Structure Distance	15.61	Virtual Inversion+Prompt-to-Prompt+LCM

Inversion-Free Image Editing with Natural Language

Abstract

Results

Related Papers

Inversion-Free Image Editing with Natural Language

Abstract

Results

Related Papers