10-shot image generation on COCO (Common Objects in Context)

Metric: mIoU (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	mIoU▼	Extra Data	Paper	Date↕	Code
1	HyperSeg	77.2	Yes	HyperSeg: Towards Universal Visual Segmentation ...	2024-11-26	Code
2	ViT-P (OneFormer, InternImage-H)	69.1	No	The Missing Point in Vision Transformers for Uni...	2025-05-26	Code
3	OneFormer (InternImage-H, emb_dim=1024, single-scale)	68.8	No	OneFormer: One Transformer to Rule Universal Ima...	2022-11-10	Code
4	ViT-P (OneFormer, DiNAT-L)	68.8	No	The Missing Point in Vision Transformers for Uni...	2025-05-26	Code
5	OneFormer (DiNAT-L, single-scale)	68.1	No	OneFormer: One Transformer to Rule Universal Ima...	2022-11-10	Code
6	OneFormer (Swin-L, single-scale)	67.4	No	OneFormer: One Transformer to Rule Universal Ima...	2022-11-10	Code
7	Mask2Former (Swin-L, single-scale)	67.4	No	Masked-attention Mask Transformer for Universal ...	2021-12-02	Code
8	MaskFormer (Swin-L, single-scale)	64.8	No	Masked-attention Mask Transformer for Universal ...	2021-12-02	Code
9	SegCLIP	26.5	No	SegCLIP: Patch Aggregation with Learnable Center...	2022-11-27	Code

#1HyperSegSOTA
77.2
mIoU· Extra Data· 2024-11-26
HyperSeg: Towards Universal Visual Segmentation with Large Language Model Code
#2ViT-P (OneFormer, InternImage-H)
69.1
mIoU· 2025-05-26
The Missing Point in Vision Transformers for Universal Image Segmentation Code
#3OneFormer (InternImage-H, emb_dim=1024, single-scale)SOTA
68.8
mIoU· 2022-11-10
OneFormer: One Transformer to Rule Universal Image Segmentation Code
#4ViT-P (OneFormer, DiNAT-L)
68.8
mIoU· 2025-05-26
The Missing Point in Vision Transformers for Universal Image Segmentation Code
#5OneFormer (DiNAT-L, single-scale)
68.1
mIoU· 2022-11-10
OneFormer: One Transformer to Rule Universal Image Segmentation Code
#6OneFormer (Swin-L, single-scale)
67.4
mIoU· 2022-11-10
OneFormer: One Transformer to Rule Universal Image Segmentation Code
#7Mask2Former (Swin-L, single-scale)SOTA
67.4
mIoU· 2021-12-02
Masked-attention Mask Transformer for Universal Image Segmentation Code
#8MaskFormer (Swin-L, single-scale)
64.8
mIoU· 2021-12-02
Masked-attention Mask Transformer for Universal Image Segmentation Code
#9SegCLIP
26.5
mIoU· 2022-11-27
SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation Code