InstanceDiffusion: Instance-level Control for Image Generation

Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, Ishan Misra

2024-02-05CVPR 2024 1Conditional Text-to-Image Synthesis Semantic Segmentation Instance Segmentation Image Generation

Abstract

Text-to-image diffusion models produce high quality images but do not offer control over individual instances in the image. We introduce InstanceDiffusion that adds precise instance-level control to text-to-image diffusion models. InstanceDiffusion supports free-form language conditions per instance and allows flexible ways to specify instance locations such as simple single points, scribbles, bounding boxes or intricate instance segmentation masks, and combinations thereof. We propose three major changes to text-to-image models that enable precise instance-level control. Our UniFusion block enables instance-level conditions for text-to-image models, the ScaleU block improves image fidelity, and our Multi-instance Sampler improves generations for multiple instances. InstanceDiffusion significantly surpasses specialized state-of-the-art models for each location condition. Notably, on the COCO dataset, we outperform previous state-of-the-art by 20.4% AP$_{50}^\text{box}$ for box inputs, and 25.4% IoU for mask inputs.

Results

Task	Dataset	Metric	Value	Model
Image Generation	COCO-MIG	instance success rate	0.51	Instance Diffusion (zero-shot)
Image Generation	COCO-MIG	mIoU	0.46	Instance Diffusion (zero-shot)
Text-to-Image Generation	COCO-MIG	instance success rate	0.51	Instance Diffusion (zero-shot)
Text-to-Image Generation	COCO-MIG	mIoU	0.46	Instance Diffusion (zero-shot)
10-shot image generation	COCO-MIG	instance success rate	0.51	Instance Diffusion (zero-shot)
10-shot image generation	COCO-MIG	mIoU	0.46	Instance Diffusion (zero-shot)
1 Image, 2*2 Stitchi	COCO-MIG	instance success rate	0.51	Instance Diffusion (zero-shot)
1 Image, 2*2 Stitchi	COCO-MIG	mIoU	0.46	Instance Diffusion (zero-shot)

InstanceDiffusion: Instance-level Control for Image Generation

Abstract

Results

Related Papers

InstanceDiffusion: Instance-level Control for Image Generation

Abstract

Results

Related Papers