Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects

Jian Hu, Jiayi Lin, Weitong Cai, Shaogang Gong

2023-12-12Test-time Adaptation object-detection Camouflaged Object Segmentation with a Single Task-generic Prompt Object Detection

Paper PDF Code(official)

Abstract

Camouflaged object detection (COD) approaches heavily rely on pixel-level annotated datasets. Weakly-supervised COD (WSCOD) approaches use sparse annotations like scribbles or points to reduce annotation effort, but this can lead to decreased accuracy. The Segment Anything Model (SAM) shows remarkable segmentation ability with sparse prompts like points. However, manual prompt is not always feasible, as it may not be accessible in real-world application. Additionally, it only provides localization information instead of semantic one, which can intrinsically cause ambiguity in interpreting the targets. In this work, we aim to eliminate the need for manual prompt. The key idea is to employ Cross-modal Chains of Thought Prompting (CCTP) to reason visual prompts using the semantic information given by a generic text prompt. To that end, we introduce a test-time adaptation per-instance mechanism called Generalizable SAM (GenSAM) to automatically enerate and optimize visual prompts the generic task prompt for WSCOD. In particular, CCTP maps a single generic text prompt onto image-specific consensus foreground and background heatmaps using vision-language models, acquiring reliable visual prompts. Moreover, to test-time adapt the visual prompts, we further propose Progressive Mask Generation (PMG) to iteratively reweight the input image, guiding the model to focus on the targets in a coarse-to-fine manner. Crucially, all network parameters are fixed, avoiding the need for additional training. Experiments demonstrate the superiority of GenSAM. Experiments on three benchmarks demonstrate that GenSAM outperforms point supervision approaches and achieves comparable results to scribble supervision ones, solely relying on general task descriptions as prompts. our codes is in: https://lwpyh.github.io/GenSAM/.

Results

Task	Dataset	Metric	Value	Model
Object Detection	CAMO	E_{\phi}	0.775	GenSAM
Object Detection	CAMO	F_{\beta}	0.659	GenSAM
Object Detection	CAMO	MAE	0.113	GenSAM
Object Detection	CAMO	S_{\alpha}	0.719	GenSAM
Object Detection	COD10K	E_{\phi}	0.838	GenSAM
Object Detection	COD10K	F_{\beta}	0.681	GenSAM
Object Detection	COD10K	MAE	0.067	GenSAM
Object Detection	COD10K	S_{\alpha}	0.775	GenSAM
Object Detection	Chameleon	E_{\phi}	0.807	GenSAM
Object Detection	Chameleon	F_{\beta}	0.68	GenSAM
Object Detection	Chameleon	MAE	0.09	GenSAM
Object Detection	Chameleon	S_{\alpha}	0.764	GenSAM
3D	CAMO	E_{\phi}	0.775	GenSAM
3D	CAMO	F_{\beta}	0.659	GenSAM
3D	CAMO	MAE	0.113	GenSAM
3D	CAMO	S_{\alpha}	0.719	GenSAM
3D	COD10K	E_{\phi}	0.838	GenSAM
3D	COD10K	F_{\beta}	0.681	GenSAM
3D	COD10K	MAE	0.067	GenSAM
3D	COD10K	S_{\alpha}	0.775	GenSAM
3D	Chameleon	E_{\phi}	0.807	GenSAM
3D	Chameleon	F_{\beta}	0.68	GenSAM
3D	Chameleon	MAE	0.09	GenSAM
3D	Chameleon	S_{\alpha}	0.764	GenSAM
Camouflaged Object Segmentation	CAMO	E_{\phi}	0.775	GenSAM
Camouflaged Object Segmentation	CAMO	F_{\beta}	0.659	GenSAM
Camouflaged Object Segmentation	CAMO	MAE	0.113	GenSAM
Camouflaged Object Segmentation	CAMO	S_{\alpha}	0.719	GenSAM
Camouflaged Object Segmentation	COD10K	E_{\phi}	0.838	GenSAM
Camouflaged Object Segmentation	COD10K	F_{\beta}	0.681	GenSAM
Camouflaged Object Segmentation	COD10K	MAE	0.067	GenSAM
Camouflaged Object Segmentation	COD10K	S_{\alpha}	0.775	GenSAM
Camouflaged Object Segmentation	Chameleon	E_{\phi}	0.807	GenSAM
Camouflaged Object Segmentation	Chameleon	F_{\beta}	0.68	GenSAM
Camouflaged Object Segmentation	Chameleon	MAE	0.09	GenSAM
Camouflaged Object Segmentation	Chameleon	S_{\alpha}	0.764	GenSAM
Object Segmentation	CAMO	E_{\phi}	0.775	GenSAM
Object Segmentation	CAMO	F_{\beta}	0.659	GenSAM
Object Segmentation	CAMO	MAE	0.113	GenSAM
Object Segmentation	CAMO	S_{\alpha}	0.719	GenSAM
Object Segmentation	COD10K	E_{\phi}	0.838	GenSAM
Object Segmentation	COD10K	F_{\beta}	0.681	GenSAM
Object Segmentation	COD10K	MAE	0.067	GenSAM
Object Segmentation	COD10K	S_{\alpha}	0.775	GenSAM
Object Segmentation	Chameleon	E_{\phi}	0.807	GenSAM
Object Segmentation	Chameleon	F_{\beta}	0.68	GenSAM
Object Segmentation	Chameleon	MAE	0.09	GenSAM
Object Segmentation	Chameleon	S_{\alpha}	0.764	GenSAM
2D Classification	CAMO	E_{\phi}	0.775	GenSAM
2D Classification	CAMO	F_{\beta}	0.659	GenSAM
2D Classification	CAMO	MAE	0.113	GenSAM
2D Classification	CAMO	S_{\alpha}	0.719	GenSAM
2D Classification	COD10K	E_{\phi}	0.838	GenSAM
2D Classification	COD10K	F_{\beta}	0.681	GenSAM
2D Classification	COD10K	MAE	0.067	GenSAM
2D Classification	COD10K	S_{\alpha}	0.775	GenSAM
2D Classification	Chameleon	E_{\phi}	0.807	GenSAM
2D Classification	Chameleon	F_{\beta}	0.68	GenSAM
2D Classification	Chameleon	MAE	0.09	GenSAM
2D Classification	Chameleon	S_{\alpha}	0.764	GenSAM
2D Object Detection	CAMO	E_{\phi}	0.775	GenSAM
2D Object Detection	CAMO	F_{\beta}	0.659	GenSAM
2D Object Detection	CAMO	MAE	0.113	GenSAM
2D Object Detection	CAMO	S_{\alpha}	0.719	GenSAM
2D Object Detection	COD10K	E_{\phi}	0.838	GenSAM
2D Object Detection	COD10K	F_{\beta}	0.681	GenSAM
2D Object Detection	COD10K	MAE	0.067	GenSAM
2D Object Detection	COD10K	S_{\alpha}	0.775	GenSAM
2D Object Detection	Chameleon	E_{\phi}	0.807	GenSAM
2D Object Detection	Chameleon	F_{\beta}	0.68	GenSAM
2D Object Detection	Chameleon	MAE	0.09	GenSAM
2D Object Detection	Chameleon	S_{\alpha}	0.764	GenSAM
16k	CAMO	E_{\phi}	0.775	GenSAM
16k	CAMO	F_{\beta}	0.659	GenSAM
16k	CAMO	MAE	0.113	GenSAM
16k	CAMO	S_{\alpha}	0.719	GenSAM
16k	COD10K	E_{\phi}	0.838	GenSAM
16k	COD10K	F_{\beta}	0.681	GenSAM
16k	COD10K	MAE	0.067	GenSAM
16k	COD10K	S_{\alpha}	0.775	GenSAM
16k	Chameleon	E_{\phi}	0.807	GenSAM
16k	Chameleon	F_{\beta}	0.68	GenSAM
16k	Chameleon	MAE	0.09	GenSAM
16k	Chameleon	S_{\alpha}	0.764	GenSAM

Abstract

Results

Task	Dataset	Metric	Value	Model
Object Detection	CAMO	E_{\phi}	0.775	GenSAM
Object Detection	CAMO	F_{\beta}	0.659	GenSAM
Object Detection	CAMO	MAE	0.113	GenSAM
Object Detection	CAMO	S_{\alpha}	0.719	GenSAM
Object Detection	COD10K	E_{\phi}	0.838	GenSAM
Object Detection	COD10K	F_{\beta}	0.681	GenSAM
Object Detection	COD10K	MAE	0.067	GenSAM
Object Detection	COD10K	S_{\alpha}	0.775	GenSAM
Object Detection	Chameleon	E_{\phi}	0.807	GenSAM
Object Detection	Chameleon	F_{\beta}	0.68	GenSAM
Object Detection	Chameleon	MAE	0.09	GenSAM
Object Detection	Chameleon	S_{\alpha}	0.764	GenSAM
3D	CAMO	E_{\phi}	0.775	GenSAM
3D	CAMO	F_{\beta}	0.659	GenSAM
3D	CAMO	MAE	0.113	GenSAM
3D	CAMO	S_{\alpha}	0.719	GenSAM
3D	COD10K	E_{\phi}	0.838	GenSAM
3D	COD10K	F_{\beta}	0.681	GenSAM
3D	COD10K	MAE	0.067	GenSAM
3D	COD10K	S_{\alpha}	0.775	GenSAM
3D	Chameleon	E_{\phi}	0.807	GenSAM
3D	Chameleon	F_{\beta}	0.68	GenSAM
3D	Chameleon	MAE	0.09	GenSAM
3D	Chameleon	S_{\alpha}	0.764	GenSAM
Camouflaged Object Segmentation	CAMO	E_{\phi}	0.775	GenSAM
Camouflaged Object Segmentation	CAMO	F_{\beta}	0.659	GenSAM
Camouflaged Object Segmentation	CAMO	MAE	0.113	GenSAM
Camouflaged Object Segmentation	CAMO	S_{\alpha}	0.719	GenSAM
Camouflaged Object Segmentation	COD10K	E_{\phi}	0.838	GenSAM
Camouflaged Object Segmentation	COD10K	F_{\beta}	0.681	GenSAM
Camouflaged Object Segmentation	COD10K	MAE	0.067	GenSAM
Camouflaged Object Segmentation	COD10K	S_{\alpha}	0.775	GenSAM
Camouflaged Object Segmentation	Chameleon	E_{\phi}	0.807	GenSAM
Camouflaged Object Segmentation	Chameleon	F_{\beta}	0.68	GenSAM
Camouflaged Object Segmentation	Chameleon	MAE	0.09	GenSAM
Camouflaged Object Segmentation	Chameleon	S_{\alpha}	0.764	GenSAM
Object Segmentation	CAMO	E_{\phi}	0.775	GenSAM
Object Segmentation	CAMO	F_{\beta}	0.659	GenSAM
Object Segmentation	CAMO	MAE	0.113	GenSAM
Object Segmentation	CAMO	S_{\alpha}	0.719	GenSAM
Object Segmentation	COD10K	E_{\phi}	0.838	GenSAM
Object Segmentation	COD10K	F_{\beta}	0.681	GenSAM
Object Segmentation	COD10K	MAE	0.067	GenSAM
Object Segmentation	COD10K	S_{\alpha}	0.775	GenSAM
Object Segmentation	Chameleon	E_{\phi}	0.807	GenSAM
Object Segmentation	Chameleon	F_{\beta}	0.68	GenSAM
Object Segmentation	Chameleon	MAE	0.09	GenSAM
Object Segmentation	Chameleon	S_{\alpha}	0.764	GenSAM
2D Classification	CAMO	E_{\phi}	0.775	GenSAM
2D Classification	CAMO	F_{\beta}	0.659	GenSAM
2D Classification	CAMO	MAE	0.113	GenSAM
2D Classification	CAMO	S_{\alpha}	0.719	GenSAM
2D Classification	COD10K	E_{\phi}	0.838	GenSAM
2D Classification	COD10K	F_{\beta}	0.681	GenSAM
2D Classification	COD10K	MAE	0.067	GenSAM
2D Classification	COD10K	S_{\alpha}	0.775	GenSAM
2D Classification	Chameleon	E_{\phi}	0.807	GenSAM
2D Classification	Chameleon	F_{\beta}	0.68	GenSAM
2D Classification	Chameleon	MAE	0.09	GenSAM
2D Classification	Chameleon	S_{\alpha}	0.764	GenSAM
2D Object Detection	CAMO	E_{\phi}	0.775	GenSAM
2D Object Detection	CAMO	F_{\beta}	0.659	GenSAM
2D Object Detection	CAMO	MAE	0.113	GenSAM
2D Object Detection	CAMO	S_{\alpha}	0.719	GenSAM
2D Object Detection	COD10K	E_{\phi}	0.838	GenSAM
2D Object Detection	COD10K	F_{\beta}	0.681	GenSAM
2D Object Detection	COD10K	MAE	0.067	GenSAM
2D Object Detection	COD10K	S_{\alpha}	0.775	GenSAM
2D Object Detection	Chameleon	E_{\phi}	0.807	GenSAM
2D Object Detection	Chameleon	F_{\beta}	0.68	GenSAM
2D Object Detection	Chameleon	MAE	0.09	GenSAM
2D Object Detection	Chameleon	S_{\alpha}	0.764	GenSAM
16k	CAMO	E_{\phi}	0.775	GenSAM
16k	CAMO	F_{\beta}	0.659	GenSAM
16k	CAMO	MAE	0.113	GenSAM
16k	CAMO	S_{\alpha}	0.719	GenSAM
16k	COD10K	E_{\phi}	0.838	GenSAM
16k	COD10K	F_{\beta}	0.681	GenSAM
16k	COD10K	MAE	0.067	GenSAM
16k	COD10K	S_{\alpha}	0.775	GenSAM
16k	Chameleon	E_{\phi}	0.807	GenSAM
16k	Chameleon	F_{\beta}	0.68	GenSAM
16k	Chameleon	MAE	0.09	GenSAM
16k	Chameleon	S_{\alpha}	0.764	GenSAM

Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects

Abstract

Results

Related Papers

Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects

Abstract

Results

Related Papers