MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

Yicheng Xiao, Lin Song, Yukang Chen, Yingmin Luo, Yuxin Chen, Yukang Gan, Wei Huang, Xiu Li, Xiaojuan Qi, Ying Shan

2025-05-19Text-to-Image Generation Mathematical Reasoning Multimodal Large Language Model Large Language Model Image Generation Language Modelling

Paper PDF Code(official)

Abstract

Recent text-to-image systems face limitations in handling multimodal inputs and complex reasoning tasks. We introduce MindOmni, a unified multimodal large language model that addresses these challenges by incorporating reasoning generation through reinforcement learning. MindOmni leverages a three-phase training strategy: i) design of a unified vision language model with a decoder-only diffusion module, ii) supervised fine-tuning with Chain-of-Thought (CoT) instruction data, and iii) our proposed Reasoning Generation Policy Optimization (RGPO) algorithm, utilizing multimodal feedback to effectively guide policy updates. Experimental results demonstrate that MindOmni outperforms existing models, achieving impressive performance on both understanding and generation benchmarks, meanwhile showcasing advanced fine-grained reasoning generation capabilities, especially with mathematical reasoning instruction. All codes will be made public at \href{https://github.com/EasonXiao-888/MindOmni}{https://github.com/EasonXiao-888/MindOmni}.

Results

Task	Dataset	Metric	Value	Model
Image Generation	WISE	Biology	0.76	MindOmni (w/ cot)
Image Generation	WISE	Chemistry	0.52	MindOmni (w/ cot)
Image Generation	WISE	Cultural	0.75	MindOmni (w/ cot)
Image Generation	WISE	Overall	0.71	MindOmni (w/ cot)
Image Generation	WISE	Physics	0.72	MindOmni (w/ cot)
Image Generation	WISE	Space	0.76	MindOmni (w/ cot)
Image Generation	WISE	Time	0.7	MindOmni (w/ cot)
Image Generation	WISE	Biology	0.36	MindOmni (w/o cot)
Image Generation	WISE	Chemistry	0.32	MindOmni (w/o cot)
Image Generation	WISE	Cultural	0.4	MindOmni (w/o cot)
Image Generation	WISE	Overall	0.43	MindOmni (w/o cot)
Image Generation	WISE	Physics	0.52	MindOmni (w/o cot)
Image Generation	WISE	Space	0.62	MindOmni (w/o cot)
Image Generation	WISE	Time	0.38	MindOmni (w/o cot)
Image Generation	GenEval	Color Attri.	0.71	MindOmni
Image Generation	GenEval	Colors	0.9	MindOmni
Image Generation	GenEval	Counting	0.71	MindOmni
Image Generation	GenEval	Overall	0.83	MindOmni
Image Generation	GenEval	Position	0.71	MindOmni
Image Generation	GenEval	Single Obj.	0.99	MindOmni
Image Generation	GenEval	Two Obj.	0.94	MindOmni
Text-to-Image Generation	GenEval	Color Attri.	0.71	MindOmni
Text-to-Image Generation	GenEval	Colors	0.9	MindOmni
Text-to-Image Generation	GenEval	Counting	0.71	MindOmni
Text-to-Image Generation	GenEval	Overall	0.83	MindOmni
Text-to-Image Generation	GenEval	Position	0.71	MindOmni
Text-to-Image Generation	GenEval	Single Obj.	0.99	MindOmni
Text-to-Image Generation	GenEval	Two Obj.	0.94	MindOmni
10-shot image generation	GenEval	Color Attri.	0.71	MindOmni
10-shot image generation	GenEval	Colors	0.9	MindOmni
10-shot image generation	GenEval	Counting	0.71	MindOmni
10-shot image generation	GenEval	Overall	0.83	MindOmni
10-shot image generation	GenEval	Position	0.71	MindOmni
10-shot image generation	GenEval	Single Obj.	0.99	MindOmni
10-shot image generation	GenEval	Two Obj.	0.94	MindOmni
1 Image, 2*2 Stitchi	GenEval	Color Attri.	0.71	MindOmni
1 Image, 2*2 Stitchi	GenEval	Colors	0.9	MindOmni
1 Image, 2*2 Stitchi	GenEval	Counting	0.71	MindOmni
1 Image, 2*2 Stitchi	GenEval	Overall	0.83	MindOmni
1 Image, 2*2 Stitchi	GenEval	Position	0.71	MindOmni
1 Image, 2*2 Stitchi	GenEval	Single Obj.	0.99	MindOmni
1 Image, 2*2 Stitchi	GenEval	Two Obj.	0.94	MindOmni

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

Abstract

Results

Related Papers

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

Abstract

Results

Related Papers