Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation

Jian Hu, Jiayi Lin, Junchi Yan, Shaogang Gong

2024-08-27Camouflaged Object Segmentation Segmentation Medical Image Segmentation Camouflaged Object Segmentation with a Single Task-generic Prompt

Paper PDF Code(official)

Abstract

Promptable segmentation typically requires instance-specific manual prompts to guide the segmentation of each desired object. To minimize such a need, task-generic promptable segmentation has been introduced, which employs a single task-generic prompt to segment various images of different objects in the same task. Current methods use Multimodal Large Language Models (MLLMs) to reason detailed instance-specific prompts from a task-generic prompt for improving segmentation accuracy. The effectiveness of this segmentation heavily depends on the precision of these derived prompts. However, MLLMs often suffer hallucinations during reasoning, resulting in inaccurate prompting. While existing methods focus on eliminating hallucinations to improve a model, we argue that MLLM hallucinations can reveal valuable contextual insights when leveraged correctly, as they represent pre-trained large-scale knowledge beyond individual images. In this paper, we utilize hallucinations to mine task-related information from images and verify its accuracy for enhancing precision of the generated prompts. Specifically, we introduce an iterative Prompt-Mask Cycle generation framework (ProMaC) with a prompt generator and a mask generator.The prompt generator uses a multi-scale chain of thought prompting, initially exploring hallucinations for extracting extended contextual knowledge on a test image.These hallucinations are then reduced to formulate precise instance-specific prompts, directing the mask generator to produce masks that are consistent with task semantics by mask semantic alignment. The generated masks iteratively induce the prompt generator to focus more on task-relevant image areas and reduce irrelevant hallucinations, resulting jointly in better prompts and masks. Experiments on 5 benchmarks demonstrate the effectiveness of ProMaC. Code given in https://lwpyh.github.io/ProMaC/.

Results

Task	Dataset	Metric	Value	Model
Object Detection	CAMO	E_{\phi}	0.846	ProMaC
Object Detection	CAMO	F_{\beta}	0.725	ProMaC
Object Detection	CAMO	MAE	0.09	ProMaC
Object Detection	CAMO	S_{\alpha}	0.767	ProMaC
Object Detection	COD10K	E_{\phi}	0.876	ProMaC
Object Detection	COD10K	F_{\beta}	0.716	ProMaC
Object Detection	COD10K	MAE	0.042	ProMaC
Object Detection	COD10K	S_{\alpha}	0.805	ProMaC
Object Detection	Chameleon	E_{\phi}	0.899	ProMaC
Object Detection	Chameleon	F_{\beta}	0.79	ProMaC
Object Detection	Chameleon	MAE	0.044	ProMaC
Object Detection	Chameleon	S_{\alpha}	0.833	ProMaC
3D	CAMO	E_{\phi}	0.846	ProMaC
3D	CAMO	F_{\beta}	0.725	ProMaC
3D	CAMO	MAE	0.09	ProMaC
3D	CAMO	S_{\alpha}	0.767	ProMaC
3D	COD10K	E_{\phi}	0.876	ProMaC
3D	COD10K	F_{\beta}	0.716	ProMaC
3D	COD10K	MAE	0.042	ProMaC
3D	COD10K	S_{\alpha}	0.805	ProMaC
3D	Chameleon	E_{\phi}	0.899	ProMaC
3D	Chameleon	F_{\beta}	0.79	ProMaC
3D	Chameleon	MAE	0.044	ProMaC
3D	Chameleon	S_{\alpha}	0.833	ProMaC
Camouflaged Object Segmentation	CAMO	E_{\phi}	0.846	ProMaC
Camouflaged Object Segmentation	CAMO	F_{\beta}	0.725	ProMaC
Camouflaged Object Segmentation	CAMO	MAE	0.09	ProMaC
Camouflaged Object Segmentation	CAMO	S_{\alpha}	0.767	ProMaC
Camouflaged Object Segmentation	COD10K	E_{\phi}	0.876	ProMaC
Camouflaged Object Segmentation	COD10K	F_{\beta}	0.716	ProMaC
Camouflaged Object Segmentation	COD10K	MAE	0.042	ProMaC
Camouflaged Object Segmentation	COD10K	S_{\alpha}	0.805	ProMaC
Camouflaged Object Segmentation	Chameleon	E_{\phi}	0.899	ProMaC
Camouflaged Object Segmentation	Chameleon	F_{\beta}	0.79	ProMaC
Camouflaged Object Segmentation	Chameleon	MAE	0.044	ProMaC
Camouflaged Object Segmentation	Chameleon	S_{\alpha}	0.833	ProMaC
Object Segmentation	CAMO	E_{\phi}	0.846	ProMaC
Object Segmentation	CAMO	F_{\beta}	0.725	ProMaC
Object Segmentation	CAMO	MAE	0.09	ProMaC
Object Segmentation	CAMO	S_{\alpha}	0.767	ProMaC
Object Segmentation	COD10K	E_{\phi}	0.876	ProMaC
Object Segmentation	COD10K	F_{\beta}	0.716	ProMaC
Object Segmentation	COD10K	MAE	0.042	ProMaC
Object Segmentation	COD10K	S_{\alpha}	0.805	ProMaC
Object Segmentation	Chameleon	E_{\phi}	0.899	ProMaC
Object Segmentation	Chameleon	F_{\beta}	0.79	ProMaC
Object Segmentation	Chameleon	MAE	0.044	ProMaC
Object Segmentation	Chameleon	S_{\alpha}	0.833	ProMaC
2D Classification	CAMO	E_{\phi}	0.846	ProMaC
2D Classification	CAMO	F_{\beta}	0.725	ProMaC
2D Classification	CAMO	MAE	0.09	ProMaC
2D Classification	CAMO	S_{\alpha}	0.767	ProMaC
2D Classification	COD10K	E_{\phi}	0.876	ProMaC
2D Classification	COD10K	F_{\beta}	0.716	ProMaC
2D Classification	COD10K	MAE	0.042	ProMaC
2D Classification	COD10K	S_{\alpha}	0.805	ProMaC
2D Classification	Chameleon	E_{\phi}	0.899	ProMaC
2D Classification	Chameleon	F_{\beta}	0.79	ProMaC
2D Classification	Chameleon	MAE	0.044	ProMaC
2D Classification	Chameleon	S_{\alpha}	0.833	ProMaC
2D Object Detection	CAMO	E_{\phi}	0.846	ProMaC
2D Object Detection	CAMO	F_{\beta}	0.725	ProMaC
2D Object Detection	CAMO	MAE	0.09	ProMaC
2D Object Detection	CAMO	S_{\alpha}	0.767	ProMaC
2D Object Detection	COD10K	E_{\phi}	0.876	ProMaC
2D Object Detection	COD10K	F_{\beta}	0.716	ProMaC
2D Object Detection	COD10K	MAE	0.042	ProMaC
2D Object Detection	COD10K	S_{\alpha}	0.805	ProMaC
2D Object Detection	Chameleon	E_{\phi}	0.899	ProMaC
2D Object Detection	Chameleon	F_{\beta}	0.79	ProMaC
2D Object Detection	Chameleon	MAE	0.044	ProMaC
2D Object Detection	Chameleon	S_{\alpha}	0.833	ProMaC
16k	CAMO	E_{\phi}	0.846	ProMaC
16k	CAMO	F_{\beta}	0.725	ProMaC
16k	CAMO	MAE	0.09	ProMaC
16k	CAMO	S_{\alpha}	0.767	ProMaC
16k	COD10K	E_{\phi}	0.876	ProMaC
16k	COD10K	F_{\beta}	0.716	ProMaC
16k	COD10K	MAE	0.042	ProMaC
16k	COD10K	S_{\alpha}	0.805	ProMaC
16k	Chameleon	E_{\phi}	0.899	ProMaC
16k	Chameleon	F_{\beta}	0.79	ProMaC
16k	Chameleon	MAE	0.044	ProMaC
16k	Chameleon	S_{\alpha}	0.833	ProMaC

Abstract

Results

Task	Dataset	Metric	Value	Model
Object Detection	CAMO	E_{\phi}	0.846	ProMaC
Object Detection	CAMO	F_{\beta}	0.725	ProMaC
Object Detection	CAMO	MAE	0.09	ProMaC
Object Detection	CAMO	S_{\alpha}	0.767	ProMaC
Object Detection	COD10K	E_{\phi}	0.876	ProMaC
Object Detection	COD10K	F_{\beta}	0.716	ProMaC
Object Detection	COD10K	MAE	0.042	ProMaC
Object Detection	COD10K	S_{\alpha}	0.805	ProMaC
Object Detection	Chameleon	E_{\phi}	0.899	ProMaC
Object Detection	Chameleon	F_{\beta}	0.79	ProMaC
Object Detection	Chameleon	MAE	0.044	ProMaC
Object Detection	Chameleon	S_{\alpha}	0.833	ProMaC
3D	CAMO	E_{\phi}	0.846	ProMaC
3D	CAMO	F_{\beta}	0.725	ProMaC
3D	CAMO	MAE	0.09	ProMaC
3D	CAMO	S_{\alpha}	0.767	ProMaC
3D	COD10K	E_{\phi}	0.876	ProMaC
3D	COD10K	F_{\beta}	0.716	ProMaC
3D	COD10K	MAE	0.042	ProMaC
3D	COD10K	S_{\alpha}	0.805	ProMaC
3D	Chameleon	E_{\phi}	0.899	ProMaC
3D	Chameleon	F_{\beta}	0.79	ProMaC
3D	Chameleon	MAE	0.044	ProMaC
3D	Chameleon	S_{\alpha}	0.833	ProMaC
Camouflaged Object Segmentation	CAMO	E_{\phi}	0.846	ProMaC
Camouflaged Object Segmentation	CAMO	F_{\beta}	0.725	ProMaC
Camouflaged Object Segmentation	CAMO	MAE	0.09	ProMaC
Camouflaged Object Segmentation	CAMO	S_{\alpha}	0.767	ProMaC
Camouflaged Object Segmentation	COD10K	E_{\phi}	0.876	ProMaC
Camouflaged Object Segmentation	COD10K	F_{\beta}	0.716	ProMaC
Camouflaged Object Segmentation	COD10K	MAE	0.042	ProMaC
Camouflaged Object Segmentation	COD10K	S_{\alpha}	0.805	ProMaC
Camouflaged Object Segmentation	Chameleon	E_{\phi}	0.899	ProMaC
Camouflaged Object Segmentation	Chameleon	F_{\beta}	0.79	ProMaC
Camouflaged Object Segmentation	Chameleon	MAE	0.044	ProMaC
Camouflaged Object Segmentation	Chameleon	S_{\alpha}	0.833	ProMaC
Object Segmentation	CAMO	E_{\phi}	0.846	ProMaC
Object Segmentation	CAMO	F_{\beta}	0.725	ProMaC
Object Segmentation	CAMO	MAE	0.09	ProMaC
Object Segmentation	CAMO	S_{\alpha}	0.767	ProMaC
Object Segmentation	COD10K	E_{\phi}	0.876	ProMaC
Object Segmentation	COD10K	F_{\beta}	0.716	ProMaC
Object Segmentation	COD10K	MAE	0.042	ProMaC
Object Segmentation	COD10K	S_{\alpha}	0.805	ProMaC
Object Segmentation	Chameleon	E_{\phi}	0.899	ProMaC
Object Segmentation	Chameleon	F_{\beta}	0.79	ProMaC
Object Segmentation	Chameleon	MAE	0.044	ProMaC
Object Segmentation	Chameleon	S_{\alpha}	0.833	ProMaC
2D Classification	CAMO	E_{\phi}	0.846	ProMaC
2D Classification	CAMO	F_{\beta}	0.725	ProMaC
2D Classification	CAMO	MAE	0.09	ProMaC
2D Classification	CAMO	S_{\alpha}	0.767	ProMaC
2D Classification	COD10K	E_{\phi}	0.876	ProMaC
2D Classification	COD10K	F_{\beta}	0.716	ProMaC
2D Classification	COD10K	MAE	0.042	ProMaC
2D Classification	COD10K	S_{\alpha}	0.805	ProMaC
2D Classification	Chameleon	E_{\phi}	0.899	ProMaC
2D Classification	Chameleon	F_{\beta}	0.79	ProMaC
2D Classification	Chameleon	MAE	0.044	ProMaC
2D Classification	Chameleon	S_{\alpha}	0.833	ProMaC
2D Object Detection	CAMO	E_{\phi}	0.846	ProMaC
2D Object Detection	CAMO	F_{\beta}	0.725	ProMaC
2D Object Detection	CAMO	MAE	0.09	ProMaC
2D Object Detection	CAMO	S_{\alpha}	0.767	ProMaC
2D Object Detection	COD10K	E_{\phi}	0.876	ProMaC
2D Object Detection	COD10K	F_{\beta}	0.716	ProMaC
2D Object Detection	COD10K	MAE	0.042	ProMaC
2D Object Detection	COD10K	S_{\alpha}	0.805	ProMaC
2D Object Detection	Chameleon	E_{\phi}	0.899	ProMaC
2D Object Detection	Chameleon	F_{\beta}	0.79	ProMaC
2D Object Detection	Chameleon	MAE	0.044	ProMaC
2D Object Detection	Chameleon	S_{\alpha}	0.833	ProMaC
16k	CAMO	E_{\phi}	0.846	ProMaC
16k	CAMO	F_{\beta}	0.725	ProMaC
16k	CAMO	MAE	0.09	ProMaC
16k	CAMO	S_{\alpha}	0.767	ProMaC
16k	COD10K	E_{\phi}	0.876	ProMaC
16k	COD10K	F_{\beta}	0.716	ProMaC
16k	COD10K	MAE	0.042	ProMaC
16k	COD10K	S_{\alpha}	0.805	ProMaC
16k	Chameleon	E_{\phi}	0.899	ProMaC
16k	Chameleon	F_{\beta}	0.79	ProMaC
16k	Chameleon	MAE	0.044	ProMaC
16k	Chameleon	S_{\alpha}	0.833	ProMaC

Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation

Abstract

Results

Related Papers

Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation

Abstract

Results

Related Papers