PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li

2024-03-07Text-to-Image Generation Text to Image Generation Image Captioning 4k Image Generation

Abstract

In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer model~(DiT) capable of directly generating images at 4K resolution. PixArt-\Sigma represents a significant advancement over its predecessor, PixArt-\alpha, offering images of markedly higher fidelity and improved alignment with text prompts. A key feature of PixArt-\Sigma is its training efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it evolves from the `weaker' baseline to a `stronger' model via incorporating higher quality data, a process we term "weak-to-strong training". The advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data: PixArt-\Sigma incorporates superior-quality image data, paired with more precise and detailed image captions. (2) Efficient Token Compression: we propose a novel attention module within the DiT framework that compresses both keys and values, significantly improving efficiency and facilitating ultra-high-resolution image generation. Thanks to these improvements, PixArt-\Sigma achieves superior image quality and user prompt adherence capabilities with significantly smaller model size (0.6B parameters) than existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K images supports the creation of high-resolution posters and wallpapers, efficiently bolstering the production of high-quality visual content in industries such as film and gaming.

Results

Task	Dataset	Metric	Value	Model
Image Generation	TextAtlasEval	StyledTextSynth Clip Score	0.2764	PixArt-Sigma
Image Generation	TextAtlasEval	StyledTextSynth FID	82.83	PixArt-Sigma
Image Generation	TextAtlasEval	StyledTextSynth OCR (Accuracy)	0.42	PixArt-Sigma
Image Generation	TextAtlasEval	StyledTextSynth OCR (Cer)	0.9	PixArt-Sigma
Image Generation	TextAtlasEval	StyledTextSynth OCR (F1 Score)	0.62	PixArt-Sigma
Image Generation	TextAtlasEval	TextScenesHQ Clip Score	0.2347	PixArt-Sigma
Image Generation	TextAtlasEval	TextScenesHQ FID	72.62	PixArt-Sigma
Image Generation	TextAtlasEval	TextScenesHQ OCR (Accuracy)	0.34	PixArt-Sigma
Image Generation	TextAtlasEval	TextScenesHQ OCR (Cer)	0.91	PixArt-Sigma
Image Generation	TextAtlasEval	TextScenesHQ OCR (F1 Score)	0.53	PixArt-Sigma
Image Generation	TextAtlasEval	TextVisionBlend Clip Score	0.1891	PixArt-Sigma
Image Generation	TextAtlasEval	TextVisionBlend FID	81.29	PixArt-Sigma
Image Generation	TextAtlasEval	TextVisionBlend OCR (Accuracy)	2.4	PixArt-Sigma
Image Generation	TextAtlasEval	TextVisionBlend OCR (Cer)	0.83	PixArt-Sigma
Image Generation	TextAtlasEval	TextVsionBlend OCR (F1 Score)	1.57	PixArt-Sigma
Image Generation	GenEval	Overall	0.53	PixArt-Σ
Text-to-Image Generation	GenEval	Overall	0.53	PixArt-Σ
10-shot image generation	GenEval	Overall	0.53	PixArt-Σ
1 Image, 2*2 Stitchi	GenEval	Overall	0.53	PixArt-Σ

PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

Abstract

Results

Related Papers

PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

Abstract

Results

Related Papers