InstructPix2Pix: Learning to Follow Image Editing Instructions

Tim Brooks, Aleksander Holynski, Alexei A. Efros

2022-11-17CVPR 2023 1Text to Image Generation Image Editing Text-based Image Editing Language Modelling

Paper PDF Code Code Code Code(official)Code Code

Abstract

We propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine the knowledge of two large pretrained models -- a language model (GPT-3) and a text-to-image model (Stable Diffusion) -- to generate a large dataset of image editing examples. Our conditional diffusion model, InstructPix2Pix, is trained on our generated data, and generalizes to real images and user-written instructions at inference time. Since it performs edits in the forward pass and does not require per example fine-tuning or inversion, our model edits images quickly, in a matter of seconds. We show compelling editing results for a diverse collection of input images and written instructions.

Results

Task	Dataset	Metric	Value	Model
Image Editing	ImgEdit-Data	Action	1.46	Instruct-Pix2Pix
Image Editing	ImgEdit-Data	Add	2.45	Instruct-Pix2Pix
Image Editing	ImgEdit-Data	Adjust	1.83	Instruct-Pix2Pix
Image Editing	ImgEdit-Data	Background	1.44	Instruct-Pix2Pix
Image Editing	ImgEdit-Data	Extract	1.44	Instruct-Pix2Pix
Image Editing	ImgEdit-Data	Hybrid	1.2	Instruct-Pix2Pix
Image Editing	ImgEdit-Data	Overall	1.88	Instruct-Pix2Pix
Image Editing	ImgEdit-Data	Remove	1.5	Instruct-Pix2Pix
Image Editing	ImgEdit-Data	Replace	2.01	Instruct-Pix2Pix
Image Editing	ImgEdit-Data	Style	3.55	Instruct-Pix2Pix

Related Papers

Visual-Language Model Knowledge Distillation Method for Image Quality Assessment2025-07-21 NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining2025-07-18 Making Language Model a Hierarchical Classifier and Generator2025-07-17 VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning2025-07-17 The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations2025-07-17 Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities2025-07-17 Assay2Mol: large language model-based drug design using BioAssay context2025-07-16 Describe Anything Model for Visual Question Answering on Text-rich Images2025-07-16