Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/Mask2Former (Swin-L)

Mask2Former (Swin-L)

Reported on 32 benchmarks across 6 tasks · 2 papers · 19 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Computer Vision13 results

Video Instance SegmentationonYouTube-VIS validation
AP50· 2021-12-20
84.4
best: 89.3 (CAVIS(ViT-L, Online))
SOTA
Mask2Former for Video Instance Segmentation arXiv:2112.10764
Video Instance SegmentationonYouTube-VIS validation
AP75· 2021-12-20
67
best: 76.2 (CAVIS(ViT-L, Online))
SOTA
Mask2Former for Video Instance Segmentation arXiv:2112.10764
Video Instance SegmentationonYouTube-VIS validation
mask AP· 2021-12-20
60.4
best: 68.9 (CAVIS(ViT-L, Online))
SOTA
Mask2Former for Video Instance Segmentation arXiv:2112.10764
Panoptic SegmentationonCOCO test-dev
PQ· 2021-12-02
58.3
best: 59.5 (Mask DINO (single scale))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Panoptic SegmentationonCOCO test-dev
PQst· 2021-12-02
48.1
best: 58.9 (MaskConver (ResNet50, single-scale))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Panoptic SegmentationonCOCO test-dev
PQth· 2021-12-02
65.1
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Panoptic SegmentationonADE20K val
AP· 2021-12-02
34.2
best: 40.2 (OneFormer (InternImage-H, emb_dim=256, single-scale, 896x896))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Panoptic SegmentationonADE20K val
PQ· 2021-12-02
48.1
best: 54.5 (OneFormer (InternImage-H, emb_dim=256, single-scale, 896x896))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Instance SegmentationonCOCO minival
mask AP· 2021-12-02
50.1
best: 56.6 (Co-DETR)
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Panoptic SegmentationonCityscapes val
AP· 2021-12-02
43.6
best: 50.6 (ViT-P (OneFormer, InternImage-H))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Panoptic SegmentationonCityscapes val
PQ· 2021-12-02
66.6
best: 70.8 (ViT-P (OneFormer, InternImage-H))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Panoptic SegmentationonCityscapes val
mIoU· 2021-12-02
82.9
best: 90.3 (EfficientPS (Cityscapes-fine))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Panoptic SegmentationonADE20K val
mIoU· 2021-12-02
54.5
best: 60.4 (OneFormer (InternImage-H, emb_dim=256, single-scale, 896x896))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527

Audio11 results

2D Semantic SegmentationonWildScenes
mIoU· uses extra data· 2021-12-02
47.85
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonCOCO test-dev
PQ· 2021-12-02
58.3
best: 59.5 (Mask DINO (single scale))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonCOCO test-dev
PQst· 2021-12-02
48.1
best: 58.9 (MaskConver (ResNet50, single-scale))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonCOCO test-dev
PQth· 2021-12-02
65.1
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonADE20K val
AP· 2021-12-02
34.2
best: 40.2 (OneFormer (InternImage-H, emb_dim=256, single-scale, 896x896))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonADE20K val
PQ· 2021-12-02
48.1
best: 54.5 (OneFormer (InternImage-H, emb_dim=256, single-scale, 896x896))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonCityscapes val
mIoU· 2021-12-02
84.3
best: 90.3 (EfficientPS (Cityscapes-fine))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonCityscapes val
AP· 2021-12-02
43.6
best: 50.6 (ViT-P (OneFormer, InternImage-H))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonCityscapes val
PQ· 2021-12-02
66.6
best: 70.8 (ViT-P (OneFormer, InternImage-H))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonCityscapes val
mIoU· 2021-12-02
82.9
best: 90.3 (EfficientPS (Cityscapes-fine))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
10-shot image generationonADE20K val
mIoU· 2021-12-02
54.5
best: 62.8 (BEiT-3)
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527

Medical10 results

Semantic SegmentationonCOCO test-dev
PQ· 2021-12-02
58.3
best: 59.5 (Mask DINO (single scale))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Semantic SegmentationonCOCO test-dev
PQst· 2021-12-02
48.1
best: 58.9 (MaskConver (ResNet50, single-scale))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Semantic SegmentationonCOCO test-dev
PQth· 2021-12-02
65.1
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Semantic SegmentationonADE20K val
AP· 2021-12-02
34.2
best: 40.2 (OneFormer (InternImage-H, emb_dim=256, single-scale, 896x896))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Semantic SegmentationonADE20K val
PQ· 2021-12-02
48.1
best: 54.5 (OneFormer (InternImage-H, emb_dim=256, single-scale, 896x896))
SOTA
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Semantic SegmentationonCityscapes val
mIoU· 2021-12-02
84.3
best: 90.3 (EfficientPS (Cityscapes-fine))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Semantic SegmentationonCityscapes val
AP· 2021-12-02
43.6
best: 50.6 (ViT-P (OneFormer, InternImage-H))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Semantic SegmentationonCityscapes val
PQ· 2021-12-02
66.6
best: 70.8 (ViT-P (OneFormer, InternImage-H))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Semantic SegmentationonCityscapes val
mIoU· 2021-12-02
82.9
best: 90.3 (EfficientPS (Cityscapes-fine))
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527
Semantic SegmentationonADE20K val
mIoU· 2021-12-02
54.5
best: 62.8 (BEiT-3)
Masked-attention Mask Transformer for Universal Image Segmentation arXiv:2112.01527