Scene-Centric Unsupervised Panoptic Segmentation

Oliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth

2025-04-02CVPR 2025 1Panoptic Segmentation Unsupervised Semantic Segmentation Scene Understanding Segmentation Semantic Segmentation Unsupervised Panoptic Segmentation Instance Segmentation Unsupervised Object Detection

Paper PDF Code(official)

Abstract

Unsupervised panoptic segmentation aims to partition an image into semantically meaningful regions and distinct object instances without training on manually annotated data. In contrast to prior work on unsupervised panoptic scene understanding, we eliminate the need for object-centric training data, enabling the unsupervised understanding of complex scenes. To that end, we present the first unsupervised panoptic method that directly trains on scene-centric imagery. In particular, we propose an approach to obtain high-resolution panoptic pseudo labels on complex scene-centric data, combining visual representations, depth, and motion cues. Utilizing both pseudo-label training and a panoptic self-training strategy yields a novel approach that accurately predicts panoptic segmentation of complex scenes without requiring any human annotations. Our approach significantly improves panoptic quality, e.g., surpassing the recent state of the art in unsupervised panoptic segmentation on Cityscapes by 9.4% points in PQ.

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	Cityscapes test	Accuracy	83.2	CUPS
Semantic Segmentation	Cityscapes test	mIoU	26.8	CUPS
Unsupervised Semantic Segmentation	Cityscapes test	Accuracy	83.2	CUPS
Unsupervised Semantic Segmentation	Cityscapes test	mIoU	26.8	CUPS
10-shot image generation	Cityscapes test	Accuracy	83.2	CUPS
10-shot image generation	Cityscapes test	mIoU	26.8	CUPS
Unsupervised Panoptic Segmentation	Waymo Open Dataset	PQ	27.3	CUPS (54 pseudo-classes)
Unsupervised Panoptic Segmentation	Waymo Open Dataset	PQ	27.2	CUPS (40 pseudo-classes)
Unsupervised Panoptic Segmentation	Waymo Open Dataset	PQ	26.4	CUPS (27 pseudo-classes)
Unsupervised Panoptic Segmentation	Cityscapes	PQ	30.6	CUPS (54 pseudo-classes)
Unsupervised Panoptic Segmentation	Cityscapes	PQ	30.3	CUPS (40 pseudo-classes)
Unsupervised Panoptic Segmentation	Cityscapes	PQ	27.8	CUPS (27 pseudo-classes)
Unsupervised Panoptic Segmentation	MUSES: MUlti-SEnsor Semantic perception dataset	PQ	28.2	CUPS (40 pseudo-classes)
Unsupervised Panoptic Segmentation	MUSES: MUlti-SEnsor Semantic perception dataset	PQ	24.4	CUPS (27 pseudo-classes)
Unsupervised Panoptic Segmentation	MUSES: MUlti-SEnsor Semantic perception dataset	PQ	22.8	CUPS (54 pseudo-classes)
Unsupervised Panoptic Segmentation	BDD100K val	PQ	21.9	CUPS (40 pseudo-classes)
Unsupervised Panoptic Segmentation	BDD100K val	PQ	21.8	CUPS (54 pseudo-classes)
Unsupervised Panoptic Segmentation	BDD100K val	PQ	19.9	CUPS (27 pseudo-classes)
Unsupervised Panoptic Segmentation	KITTI	PQ	28.5	CUPS (54 pseudo-classes)
Unsupervised Panoptic Segmentation	KITTI	PQ	28.1	CUPS (40 pseudo-classes)
Unsupervised Panoptic Segmentation	KITTI	PQ	25.5	CUPS (27 pseudo-classes)
2D Panoptic Segmentation	Waymo Open Dataset	PQ	27.3	CUPS (54 pseudo-classes)
2D Panoptic Segmentation	Waymo Open Dataset	PQ	27.2	CUPS (40 pseudo-classes)
2D Panoptic Segmentation	Waymo Open Dataset	PQ	26.4	CUPS (27 pseudo-classes)
2D Panoptic Segmentation	Cityscapes	PQ	30.6	CUPS (54 pseudo-classes)
2D Panoptic Segmentation	Cityscapes	PQ	30.3	CUPS (40 pseudo-classes)
2D Panoptic Segmentation	Cityscapes	PQ	27.8	CUPS (27 pseudo-classes)
2D Panoptic Segmentation	MUSES: MUlti-SEnsor Semantic perception dataset	PQ	28.2	CUPS (40 pseudo-classes)
2D Panoptic Segmentation	MUSES: MUlti-SEnsor Semantic perception dataset	PQ	24.4	CUPS (27 pseudo-classes)
2D Panoptic Segmentation	MUSES: MUlti-SEnsor Semantic perception dataset	PQ	22.8	CUPS (54 pseudo-classes)
2D Panoptic Segmentation	BDD100K val	PQ	21.9	CUPS (40 pseudo-classes)
2D Panoptic Segmentation	BDD100K val	PQ	21.8	CUPS (54 pseudo-classes)
2D Panoptic Segmentation	BDD100K val	PQ	19.9	CUPS (27 pseudo-classes)
2D Panoptic Segmentation	KITTI	PQ	28.5	CUPS (54 pseudo-classes)
2D Panoptic Segmentation	KITTI	PQ	28.1	CUPS (40 pseudo-classes)
2D Panoptic Segmentation	KITTI	PQ	25.5	CUPS (27 pseudo-classes)

Scene-Centric Unsupervised Panoptic Segmentation

Abstract

Results

Related Papers

Scene-Centric Unsupervised Panoptic Segmentation

Abstract

Results

Related Papers