LaCon: Late-Constraint Diffusion for Steerable Guided Image Synthesis

Chang Liu, Rui Li, Kaidong Zhang, Xin Luo, Dong Liu

2023-05-19Text-to-Image Generation Conditional Text-to-Image Synthesis Image Generation Conditional Image Generation

Abstract

Diffusion models have demonstrated impressive abilities in generating photo-realistic and creative images. To offer more controllability for the generation process, existing studies, termed as early-constraint methods in this paper, leverage extra conditions and incorporate them into pre-trained diffusion models. Particularly, some of them adopt condition-specific modules to handle conditions separately, where they struggle to generalize across other conditions. Although follow-up studies present unified solutions to solve the generalization problem, they also require extra resources to implement, e.g., additional inputs or parameter optimization, where more flexible and efficient solutions are expected to perform steerable guided image synthesis. In this paper, we present an alternative paradigm, namely Late-Constraint Diffusion (LaCon), to simultaneously integrate various conditions into pre-trained diffusion models. Specifically, LaCon establishes an alignment between the external condition and the internal features of diffusion models, and utilizes the alignment to incorporate the target condition, guiding the sampling process to produce tailored results. Experimental results on COCO dataset illustrate the effectiveness and superior generalization capability of LaCon under various conditions and settings. Ablation studies investigate the functionalities of different components in LaCon, and illustrate its great potential to serve as an efficient solution to offer flexible controllability for diffusion models.

Results

Task	Dataset	Metric	Value	Model
Image Generation	COCO 2017 val	FID	20.27	LCDG
Image Generation	COCO 2017 val	CLIP Score	0.258	LCDG (Color, evaluated under image palette)
Image Generation	COCO 2017 val	FID	20.61	LCDG (Color, evaluated under image palette)
Image Generation	COCO 2017 val	CLIP Score	0.2617	LCDG (Mask)
Image Generation	COCO 2017 val	FID	20.94	LCDG (Mask)
Image Generation	COCO 2017 val	FID	21.02	LCDG (Edge)
Image Generation	COCO 2017 val	CLIP Score	0.258	T2I-Adapter (Sketch)
Image Generation	COCO 2017 val	FID	21.72	T2I-Adapter (Sketch)
Image Generation	COCO 2017 val	CLIP Score	0.2613	T2I-Adapter (Color, evaluated under image palette)
Image Generation	COCO 2017 val	FID	26.54	T2I-Adapter (Color, evaluated under image palette)
Image Generation	COCO 2017 val	CLIP Score	0.2673	SD (text)
Image Generation	COCO 2017 val	FID	27.99	SD (text)
Image Generation	COCO 2017 val	CLIP Score	0.2525	ControlNet (HED Edge)
Image Generation	COCO 2017 val	FID	28.09	ControlNet (HED Edge)
Image Generation	COCO 2017 val	FID	30.84	T2I-Adapter (Color, evaluated under color stroke)
Image Generation	COCO 2017 val	CLIP Score	0.2257	SD using SDEdit (evaluated under color stroke)
Image Generation	COCO 2017 val	FID	32.93	SD using SDEdit (evaluated under color stroke)
Image Generation	COCO 2017 val	FID	71.16	SD using SDEdit
Image Generation	COCO 2017 val	CLIP Score	0.2138	SD using SDEdit (evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	FID	20.27	LCDG
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.258	LCDG (Color, evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	FID	20.61	LCDG (Color, evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2617	LCDG (Mask)
Text-to-Image Generation	COCO 2017 val	FID	20.94	LCDG (Mask)
Text-to-Image Generation	COCO 2017 val	FID	21.02	LCDG (Edge)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.258	T2I-Adapter (Sketch)
Text-to-Image Generation	COCO 2017 val	FID	21.72	T2I-Adapter (Sketch)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2613	T2I-Adapter (Color, evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	FID	26.54	T2I-Adapter (Color, evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2673	SD (text)
Text-to-Image Generation	COCO 2017 val	FID	27.99	SD (text)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2525	ControlNet (HED Edge)
Text-to-Image Generation	COCO 2017 val	FID	28.09	ControlNet (HED Edge)
Text-to-Image Generation	COCO 2017 val	FID	30.84	T2I-Adapter (Color, evaluated under color stroke)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2257	SD using SDEdit (evaluated under color stroke)
Text-to-Image Generation	COCO 2017 val	FID	32.93	SD using SDEdit (evaluated under color stroke)
Text-to-Image Generation	COCO 2017 val	FID	71.16	SD using SDEdit
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2138	SD using SDEdit (evaluated under image palette)
10-shot image generation	COCO 2017 val	FID	20.27	LCDG
10-shot image generation	COCO 2017 val	CLIP Score	0.258	LCDG (Color, evaluated under image palette)
10-shot image generation	COCO 2017 val	FID	20.61	LCDG (Color, evaluated under image palette)
10-shot image generation	COCO 2017 val	CLIP Score	0.2617	LCDG (Mask)
10-shot image generation	COCO 2017 val	FID	20.94	LCDG (Mask)
10-shot image generation	COCO 2017 val	FID	21.02	LCDG (Edge)
10-shot image generation	COCO 2017 val	CLIP Score	0.258	T2I-Adapter (Sketch)
10-shot image generation	COCO 2017 val	FID	21.72	T2I-Adapter (Sketch)
10-shot image generation	COCO 2017 val	CLIP Score	0.2613	T2I-Adapter (Color, evaluated under image palette)
10-shot image generation	COCO 2017 val	FID	26.54	T2I-Adapter (Color, evaluated under image palette)
10-shot image generation	COCO 2017 val	CLIP Score	0.2673	SD (text)
10-shot image generation	COCO 2017 val	FID	27.99	SD (text)
10-shot image generation	COCO 2017 val	CLIP Score	0.2525	ControlNet (HED Edge)
10-shot image generation	COCO 2017 val	FID	28.09	ControlNet (HED Edge)
10-shot image generation	COCO 2017 val	FID	30.84	T2I-Adapter (Color, evaluated under color stroke)
10-shot image generation	COCO 2017 val	CLIP Score	0.2257	SD using SDEdit (evaluated under color stroke)
10-shot image generation	COCO 2017 val	FID	32.93	SD using SDEdit (evaluated under color stroke)
10-shot image generation	COCO 2017 val	FID	71.16	SD using SDEdit
10-shot image generation	COCO 2017 val	CLIP Score	0.2138	SD using SDEdit (evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	20.27	LCDG
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.258	LCDG (Color, evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	20.61	LCDG (Color, evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2617	LCDG (Mask)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	20.94	LCDG (Mask)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	21.02	LCDG (Edge)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.258	T2I-Adapter (Sketch)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	21.72	T2I-Adapter (Sketch)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2613	T2I-Adapter (Color, evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	26.54	T2I-Adapter (Color, evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2673	SD (text)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	27.99	SD (text)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2525	ControlNet (HED Edge)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	28.09	ControlNet (HED Edge)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	30.84	T2I-Adapter (Color, evaluated under color stroke)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2257	SD using SDEdit (evaluated under color stroke)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	32.93	SD using SDEdit (evaluated under color stroke)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	71.16	SD using SDEdit
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2138	SD using SDEdit (evaluated under image palette)

Abstract

Results

Task	Dataset	Metric	Value	Model
Image Generation	COCO 2017 val	FID	20.27	LCDG
Image Generation	COCO 2017 val	CLIP Score	0.258	LCDG (Color, evaluated under image palette)
Image Generation	COCO 2017 val	FID	20.61	LCDG (Color, evaluated under image palette)
Image Generation	COCO 2017 val	CLIP Score	0.2617	LCDG (Mask)
Image Generation	COCO 2017 val	FID	20.94	LCDG (Mask)
Image Generation	COCO 2017 val	FID	21.02	LCDG (Edge)
Image Generation	COCO 2017 val	CLIP Score	0.258	T2I-Adapter (Sketch)
Image Generation	COCO 2017 val	FID	21.72	T2I-Adapter (Sketch)
Image Generation	COCO 2017 val	CLIP Score	0.2613	T2I-Adapter (Color, evaluated under image palette)
Image Generation	COCO 2017 val	FID	26.54	T2I-Adapter (Color, evaluated under image palette)
Image Generation	COCO 2017 val	CLIP Score	0.2673	SD (text)
Image Generation	COCO 2017 val	FID	27.99	SD (text)
Image Generation	COCO 2017 val	CLIP Score	0.2525	ControlNet (HED Edge)
Image Generation	COCO 2017 val	FID	28.09	ControlNet (HED Edge)
Image Generation	COCO 2017 val	FID	30.84	T2I-Adapter (Color, evaluated under color stroke)
Image Generation	COCO 2017 val	CLIP Score	0.2257	SD using SDEdit (evaluated under color stroke)
Image Generation	COCO 2017 val	FID	32.93	SD using SDEdit (evaluated under color stroke)
Image Generation	COCO 2017 val	FID	71.16	SD using SDEdit
Image Generation	COCO 2017 val	CLIP Score	0.2138	SD using SDEdit (evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	FID	20.27	LCDG
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.258	LCDG (Color, evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	FID	20.61	LCDG (Color, evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2617	LCDG (Mask)
Text-to-Image Generation	COCO 2017 val	FID	20.94	LCDG (Mask)
Text-to-Image Generation	COCO 2017 val	FID	21.02	LCDG (Edge)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.258	T2I-Adapter (Sketch)
Text-to-Image Generation	COCO 2017 val	FID	21.72	T2I-Adapter (Sketch)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2613	T2I-Adapter (Color, evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	FID	26.54	T2I-Adapter (Color, evaluated under image palette)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2673	SD (text)
Text-to-Image Generation	COCO 2017 val	FID	27.99	SD (text)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2525	ControlNet (HED Edge)
Text-to-Image Generation	COCO 2017 val	FID	28.09	ControlNet (HED Edge)
Text-to-Image Generation	COCO 2017 val	FID	30.84	T2I-Adapter (Color, evaluated under color stroke)
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2257	SD using SDEdit (evaluated under color stroke)
Text-to-Image Generation	COCO 2017 val	FID	32.93	SD using SDEdit (evaluated under color stroke)
Text-to-Image Generation	COCO 2017 val	FID	71.16	SD using SDEdit
Text-to-Image Generation	COCO 2017 val	CLIP Score	0.2138	SD using SDEdit (evaluated under image palette)
10-shot image generation	COCO 2017 val	FID	20.27	LCDG
10-shot image generation	COCO 2017 val	CLIP Score	0.258	LCDG (Color, evaluated under image palette)
10-shot image generation	COCO 2017 val	FID	20.61	LCDG (Color, evaluated under image palette)
10-shot image generation	COCO 2017 val	CLIP Score	0.2617	LCDG (Mask)
10-shot image generation	COCO 2017 val	FID	20.94	LCDG (Mask)
10-shot image generation	COCO 2017 val	FID	21.02	LCDG (Edge)
10-shot image generation	COCO 2017 val	CLIP Score	0.258	T2I-Adapter (Sketch)
10-shot image generation	COCO 2017 val	FID	21.72	T2I-Adapter (Sketch)
10-shot image generation	COCO 2017 val	CLIP Score	0.2613	T2I-Adapter (Color, evaluated under image palette)
10-shot image generation	COCO 2017 val	FID	26.54	T2I-Adapter (Color, evaluated under image palette)
10-shot image generation	COCO 2017 val	CLIP Score	0.2673	SD (text)
10-shot image generation	COCO 2017 val	FID	27.99	SD (text)
10-shot image generation	COCO 2017 val	CLIP Score	0.2525	ControlNet (HED Edge)
10-shot image generation	COCO 2017 val	FID	28.09	ControlNet (HED Edge)
10-shot image generation	COCO 2017 val	FID	30.84	T2I-Adapter (Color, evaluated under color stroke)
10-shot image generation	COCO 2017 val	CLIP Score	0.2257	SD using SDEdit (evaluated under color stroke)
10-shot image generation	COCO 2017 val	FID	32.93	SD using SDEdit (evaluated under color stroke)
10-shot image generation	COCO 2017 val	FID	71.16	SD using SDEdit
10-shot image generation	COCO 2017 val	CLIP Score	0.2138	SD using SDEdit (evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	20.27	LCDG
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.258	LCDG (Color, evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	20.61	LCDG (Color, evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2617	LCDG (Mask)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	20.94	LCDG (Mask)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	21.02	LCDG (Edge)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.258	T2I-Adapter (Sketch)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	21.72	T2I-Adapter (Sketch)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2613	T2I-Adapter (Color, evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	26.54	T2I-Adapter (Color, evaluated under image palette)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2673	SD (text)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	27.99	SD (text)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2525	ControlNet (HED Edge)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	28.09	ControlNet (HED Edge)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	30.84	T2I-Adapter (Color, evaluated under color stroke)
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2257	SD using SDEdit (evaluated under color stroke)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	32.93	SD using SDEdit (evaluated under color stroke)
1 Image, 2*2 Stitchi	COCO 2017 val	FID	71.16	SD using SDEdit
1 Image, 2*2 Stitchi	COCO 2017 val	CLIP Score	0.2138	SD using SDEdit (evaluated under image palette)

LaCon: Late-Constraint Diffusion for Steerable Guided Image Synthesis

Abstract

Results

Related Papers

LaCon: Late-Constraint Diffusion for Steerable Guided Image Synthesis

Abstract

Results

Related Papers