UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan

2025-06-03Text-to-Image Generation Text to Image Generation Image Editing Image Generation Image Manipulation

Paper PDF Code Code

Abstract

Although existing unified models achieve strong performance in vision-language understanding and text-to-image generation, they remain limited in addressing image perception and manipulation -- capabilities increasingly demanded in practical applications. Recently, OpenAI introduced the powerful GPT-4o-Image model, which showcases advanced capabilities in comprehensive image perception and manipulation, sparking widespread interest. Through carefully designed experiments, we observe that GPT-4o-Image likely relies on semantic encoders rather than VAEs for feature extraction, despite VAEs being commonly regarded as crucial for image manipulation tasks. Inspired by this insight, we propose UniWorld-V1, a unified generative framework built upon semantic features extracted from powerful multimodal large language models and contrastive semantic encoders. Using only 2.7M training data, UniWorld-V1 achieves impressive performance across diverse tasks, including image understanding, generation, manipulation, and perception. We fully open-source the UniWorld-V1 framework, including model weights, training and evaluation scripts, and datasets to promote reproducibility and further research.

Results

Task	Dataset	Metric	Value	Model
Image Generation	WISE	Biology	0.45	UniWorld-V1
Image Generation	WISE	Chemistry	0.41	UniWorld-V1
Image Generation	WISE	Cultural	0.53	UniWorld-V1
Image Generation	WISE	Overall	0.55	UniWorld-V1
Image Generation	WISE	Physics	0.59	UniWorld-V1
Image Generation	WISE	Space	0.73	UniWorld-V1
Image Generation	WISE	Time	0.55	UniWorld-V1
Image Generation	GenEval	Color Attri.	0.71	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Colors	0.9	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Counting	0.81	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Overall	0.84	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Position	0.74	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Single Obj.	0.98	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Two Obj.	0.93	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Color Attri.	0.7	UniWorld-V1
Image Generation	GenEval	Colors	0.89	UniWorld-V1
Image Generation	GenEval	Counting	0.79	UniWorld-V1
Image Generation	GenEval	Overall	0.8	UniWorld-V1
Image Generation	GenEval	Position	0.49	UniWorld-V1
Image Generation	GenEval	Single Obj.	0.99	UniWorld-V1
Image Generation	GenEval	Two Obj.	0.93	UniWorld-V1
Text-to-Image Generation	GenEval	Color Attri.	0.71	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Colors	0.9	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Counting	0.81	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Overall	0.84	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Position	0.74	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Single Obj.	0.98	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Two Obj.	0.93	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Color Attri.	0.7	UniWorld-V1
Text-to-Image Generation	GenEval	Colors	0.89	UniWorld-V1
Text-to-Image Generation	GenEval	Counting	0.79	UniWorld-V1
Text-to-Image Generation	GenEval	Overall	0.8	UniWorld-V1
Text-to-Image Generation	GenEval	Position	0.49	UniWorld-V1
Text-to-Image Generation	GenEval	Single Obj.	0.99	UniWorld-V1
Text-to-Image Generation	GenEval	Two Obj.	0.93	UniWorld-V1
Image Editing	ImgEdit-Data	Action	2.74	UniWorld-V1
Image Editing	ImgEdit-Data	Add	3.82	UniWorld-V1
Image Editing	ImgEdit-Data	Adjust	3.64	UniWorld-V1
Image Editing	ImgEdit-Data	Background	2.99	UniWorld-V1
Image Editing	ImgEdit-Data	Extract	2.27	UniWorld-V1
Image Editing	ImgEdit-Data	Hybrid	2.96	UniWorld-V1
Image Editing	ImgEdit-Data	Overall	3.26	UniWorld-V1
Image Editing	ImgEdit-Data	Remove	3.24	UniWorld-V1
Image Editing	ImgEdit-Data	Replace	3.47	UniWorld-V1
Image Editing	ImgEdit-Data	Style	4.21	UniWorld-V1
10-shot image generation	GenEval	Color Attri.	0.71	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Colors	0.9	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Counting	0.81	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Overall	0.84	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Position	0.74	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Single Obj.	0.98	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Two Obj.	0.93	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Color Attri.	0.7	UniWorld-V1
10-shot image generation	GenEval	Colors	0.89	UniWorld-V1
10-shot image generation	GenEval	Counting	0.79	UniWorld-V1
10-shot image generation	GenEval	Overall	0.8	UniWorld-V1
10-shot image generation	GenEval	Position	0.49	UniWorld-V1
10-shot image generation	GenEval	Single Obj.	0.99	UniWorld-V1
10-shot image generation	GenEval	Two Obj.	0.93	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Color Attri.	0.71	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Colors	0.9	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Counting	0.81	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Overall	0.84	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Position	0.74	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Single Obj.	0.98	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Two Obj.	0.93	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Color Attri.	0.7	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Colors	0.89	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Counting	0.79	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Overall	0.8	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Position	0.49	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Single Obj.	0.99	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Two Obj.	0.93	UniWorld-V1

Abstract

Results

Task	Dataset	Metric	Value	Model
Image Generation	WISE	Biology	0.45	UniWorld-V1
Image Generation	WISE	Chemistry	0.41	UniWorld-V1
Image Generation	WISE	Cultural	0.53	UniWorld-V1
Image Generation	WISE	Overall	0.55	UniWorld-V1
Image Generation	WISE	Physics	0.59	UniWorld-V1
Image Generation	WISE	Space	0.73	UniWorld-V1
Image Generation	WISE	Time	0.55	UniWorld-V1
Image Generation	GenEval	Color Attri.	0.71	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Colors	0.9	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Counting	0.81	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Overall	0.84	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Position	0.74	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Single Obj.	0.98	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Two Obj.	0.93	UniWorld-V1 (Rewrite)
Image Generation	GenEval	Color Attri.	0.7	UniWorld-V1
Image Generation	GenEval	Colors	0.89	UniWorld-V1
Image Generation	GenEval	Counting	0.79	UniWorld-V1
Image Generation	GenEval	Overall	0.8	UniWorld-V1
Image Generation	GenEval	Position	0.49	UniWorld-V1
Image Generation	GenEval	Single Obj.	0.99	UniWorld-V1
Image Generation	GenEval	Two Obj.	0.93	UniWorld-V1
Text-to-Image Generation	GenEval	Color Attri.	0.71	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Colors	0.9	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Counting	0.81	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Overall	0.84	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Position	0.74	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Single Obj.	0.98	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Two Obj.	0.93	UniWorld-V1 (Rewrite)
Text-to-Image Generation	GenEval	Color Attri.	0.7	UniWorld-V1
Text-to-Image Generation	GenEval	Colors	0.89	UniWorld-V1
Text-to-Image Generation	GenEval	Counting	0.79	UniWorld-V1
Text-to-Image Generation	GenEval	Overall	0.8	UniWorld-V1
Text-to-Image Generation	GenEval	Position	0.49	UniWorld-V1
Text-to-Image Generation	GenEval	Single Obj.	0.99	UniWorld-V1
Text-to-Image Generation	GenEval	Two Obj.	0.93	UniWorld-V1
Image Editing	ImgEdit-Data	Action	2.74	UniWorld-V1
Image Editing	ImgEdit-Data	Add	3.82	UniWorld-V1
Image Editing	ImgEdit-Data	Adjust	3.64	UniWorld-V1
Image Editing	ImgEdit-Data	Background	2.99	UniWorld-V1
Image Editing	ImgEdit-Data	Extract	2.27	UniWorld-V1
Image Editing	ImgEdit-Data	Hybrid	2.96	UniWorld-V1
Image Editing	ImgEdit-Data	Overall	3.26	UniWorld-V1
Image Editing	ImgEdit-Data	Remove	3.24	UniWorld-V1
Image Editing	ImgEdit-Data	Replace	3.47	UniWorld-V1
Image Editing	ImgEdit-Data	Style	4.21	UniWorld-V1
10-shot image generation	GenEval	Color Attri.	0.71	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Colors	0.9	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Counting	0.81	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Overall	0.84	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Position	0.74	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Single Obj.	0.98	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Two Obj.	0.93	UniWorld-V1 (Rewrite)
10-shot image generation	GenEval	Color Attri.	0.7	UniWorld-V1
10-shot image generation	GenEval	Colors	0.89	UniWorld-V1
10-shot image generation	GenEval	Counting	0.79	UniWorld-V1
10-shot image generation	GenEval	Overall	0.8	UniWorld-V1
10-shot image generation	GenEval	Position	0.49	UniWorld-V1
10-shot image generation	GenEval	Single Obj.	0.99	UniWorld-V1
10-shot image generation	GenEval	Two Obj.	0.93	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Color Attri.	0.71	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Colors	0.9	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Counting	0.81	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Overall	0.84	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Position	0.74	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Single Obj.	0.98	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Two Obj.	0.93	UniWorld-V1 (Rewrite)
1 Image, 2*2 Stitchi	GenEval	Color Attri.	0.7	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Colors	0.89	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Counting	0.79	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Overall	0.8	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Position	0.49	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Single Obj.	0.99	UniWorld-V1
1 Image, 2*2 Stitchi	GenEval	Two Obj.	0.93	UniWorld-V1

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Abstract

Results

Related Papers

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Abstract

Results

Related Papers