Image Generation on WISE

Metric: Space (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	Space▼	Extra Data	Paper	Date↕	Code
1	MindOmni (w/ cot)	0.76	No	MindOmni: Unleashing Reasoning Generation in Vis...	2025-05-19	Code
2	Bagel (w/ cot)	0.75	No	Emerging Properties in Unified Multimodal Pretra...	2025-05-20	Code
3	UniWorld-V1	0.73	No	UniWorld-V1: High-Resolution Semantic Encoders f...	2025-06-03	Code
4	Bagel	0.68	No	Emerging Properties in Unified Multimodal Pretra...	2025-05-20	Code
5	MetaQuery-XL	0.62	No	Transfer between Modalities with MetaQueries	2025-04-08	-
6	MindOmni (w/o cot)	0.62	No	MindOmni: Unleashing Reasoning Generation in Vis...	2025-05-19	Code
7	stable-diffusion-3.5-large	0.58	No	Scaling Rectified Flow Transformers for High-Res...	2024-03-05	Code
8	Playground-v2.5-1024px-aesthetic	0.55	No	Playground v2.5: Three Insights towards Enhancin...	2024-02-27	-
9	Janus-pro	0.49	No	Janus-Pro: Unified Multimodal Understanding and ...	2025-01-29	Code
10	PixArt-XL-2-1024-MS	0.48	No	PixArt-$α$: Fast Training of Diffusion Transform...	2023-09-30	Code
11	Emu3-gen	0.48	No	Emu3: Next-Token Prediction is All You Need	2024-09-27	Code
12	Show-o	0.48	No	Show-o: One Single Transformer to Unify Multimod...	2024-08-22	Code
13	stable-diffusion-xl-base-0.9	0.47	No	SDXL: Improving Latent Diffusion Models for High...	2023-07-04	Code
14	Janus	0.35	No	Janus: Decoupling Visual Encoding for Unified Mu...	2024-10-17	Code

#1MindOmni (w/ cot)SOTA
0.76
Space· 2025-05-19
MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO Code
#2Bagel (w/ cot)
0.75
Space· 2025-05-20
Emerging Properties in Unified Multimodal Pretraining Code
#3UniWorld-V1
0.73
Space· 2025-06-03
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation Code
#4Bagel
0.68
Space· 2025-05-20
Emerging Properties in Unified Multimodal Pretraining Code
#5MetaQuery-XLSOTA
0.62
Space· 2025-04-08
Transfer between Modalities with MetaQueries
#6MindOmni (w/o cot)
0.62
Space· 2025-05-19
MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO Code
#7stable-diffusion-3.5-largeSOTA
0.58
Space· 2024-03-05
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Code
#8Playground-v2.5-1024px-aestheticSOTA
0.55
Space· 2024-02-27
Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation
#9Janus-pro
0.49
Space· 2025-01-29
Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling Code
#10PixArt-XL-2-1024-MSSOTA
0.48
Space· 2023-09-30
PixArt-$α$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis Code
#11Emu3-gen
0.48
Space· 2024-09-27
Emu3: Next-Token Prediction is All You Need Code
#12Show-o
0.48
Space· 2024-08-22
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation Code
#13stable-diffusion-xl-base-0.9SOTA
0.47
Space· 2023-07-04
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Code
#14Janus
0.35
Space· 2024-10-17
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation Code