Mask2Former (Swin-L, single-scale)

Reported on 8 benchmarks across 3 tasks · 1 paper · 8 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Computer Vision6 results

Instance SegmentationonCityscapes val
mask AP· 2021-12-02
43.7
best: 49 (ViT-P (OneFormer, ConvNeXt-L, single-scale, 512x1024, Mapillary Vistas-pretrained))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Instance SegmentationonCOCO val (panoptic labels)
AP· 2021-12-02
49.1
best: 52 (OneFormer (InternImage-H, emb_dim=1024, single-scale))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Instance SegmentationonADE20K val
AP· 2021-12-02
34.9
best: 44.2 (OneFormer (InternImage-H, emb_dim=1024, single-scale, 896x896, COCO-Pretrained))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Instance SegmentationonADE20K val
APL· 2021-12-02
54.7
best: 64.3 (OneFormer (InternImage-H, emb_dim=1024, single-scale, 896x896, COCO-Pretrained))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Instance SegmentationonADE20K val
APM· 2021-12-02
40
best: 49.9 (OneFormer (InternImage-H, emb_dim=1024, single-scale, 896x896, COCO-Pretrained))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Instance SegmentationonADE20K val
APS· 2021-12-02
16.3
best: 23.7 (OneFormer (InternImage-H, emb_dim=1024, single-scale, 896x896, COCO-Pretrained))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527