Unbiased Scene Graph Generation from Biased Training

Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi, Hanwang Zhang

2020-02-27CVPR 2020 6Scene Graph Generation Causal Inference Graph Generation Unbiased Scene Graph Generation

Paper PDF Code Code Code Code Code(official)Code

Abstract

Today's scene graph generation (SGG) task is still far from practical, mainly due to the severe training bias, e.g., collapsing diverse "human walk on / sit on / lay on beach" into "human on beach". Given such SGG, the down-stream tasks such as VQA can hardly infer better scene structures than merely a bag of objects. However, debiasing in SGG is not trivial because traditional debiasing methods cannot distinguish between the good and bad bias, e.g., good context prior (e.g., "person read book" rather than "eat") and bad long-tailed bias (e.g., "near" dominating "behind / in front of"). In this paper, we present a novel SGG framework based on causal inference but not the conventional likelihood. We first build a causal graph for SGG, and perform traditional biased training with the graph. Then, we propose to draw the counterfactual causality from the trained graph to infer the effect from the bad bias, which should be removed. In particular, we use Total Direct Effect (TDE) as the proposed final predicate score for unbiased SGG. Note that our framework is agnostic to any SGG model and thus can be widely applied in the community who seeks unbiased predictions. By using the proposed Scene Graph Diagnosis toolkit on the SGG benchmark Visual Genome and several prevailing models, we observed significant improvements over the previous state-of-the-art methods.

Results

Task	Dataset	Metric	Value	Model
Scene Parsing	Visual Genome	Recall@50	31.93	Causal-TDE
Scene Parsing	Visual Genome	mean Recall @20	6.9	Causal-TDE
Scene Parsing	Visual Genome	F@100	36.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	mR@20	19.2	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	ng-mR@20	20.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	F@100	37.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	mR@20	17.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	ng-mR@20	18.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	F@100	18.6	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	mR@20	11.2	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	ng-mR@20	12.4	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	F@100	19.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	mR@20	9.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	ng-mR@20	10.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	F@100	15.1	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	mR@20	6.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	ng-mR@20	7.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	F@100	13.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	mR@20	9.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	ng-mR@20	7.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	Recall@50	31.93	Causal-TDE
2D Semantic Segmentation	Visual Genome	mean Recall @20	6.9	Causal-TDE
2D Semantic Segmentation	Visual Genome	F@100	36.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	mR@20	19.2	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	20.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	F@100	37.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	mR@20	17.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	18.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	F@100	18.6	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	mR@20	11.2	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	12.4	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	F@100	19.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	mR@20	9.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	10.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	F@100	15.1	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	mR@20	6.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	7.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	F@100	13.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	mR@20	9.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	7.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	Recall@50	31.93	Causal-TDE
Scene Graph Generation	Visual Genome	mean Recall @20	6.9	Causal-TDE
Scene Graph Generation	Visual Genome	F@100	36.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	mR@20	19.2	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	ng-mR@20	20.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	F@100	37.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	mR@20	17.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	ng-mR@20	18.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	F@100	18.6	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	mR@20	11.2	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	ng-mR@20	12.4	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	F@100	19.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	mR@20	9.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	ng-mR@20	10.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	F@100	15.1	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	mR@20	6.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	ng-mR@20	7.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	F@100	13.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	mR@20	9.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	ng-mR@20	7.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)

Abstract

Results

Task	Dataset	Metric	Value	Model
Scene Parsing	Visual Genome	Recall@50	31.93	Causal-TDE
Scene Parsing	Visual Genome	mean Recall @20	6.9	Causal-TDE
Scene Parsing	Visual Genome	F@100	36.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	mR@20	19.2	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	ng-mR@20	20.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	F@100	37.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	mR@20	17.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	ng-mR@20	18.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Parsing	Visual Genome	F@100	18.6	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	mR@20	11.2	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	ng-mR@20	12.4	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	F@100	19.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	mR@20	9.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	ng-mR@20	10.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Parsing	Visual Genome	F@100	15.1	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	mR@20	6.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	ng-mR@20	7.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	F@100	13.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	mR@20	9.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Parsing	Visual Genome	ng-mR@20	7.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	Recall@50	31.93	Causal-TDE
2D Semantic Segmentation	Visual Genome	mean Recall @20	6.9	Causal-TDE
2D Semantic Segmentation	Visual Genome	F@100	36.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	mR@20	19.2	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	20.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	F@100	37.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	mR@20	17.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	18.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
2D Semantic Segmentation	Visual Genome	F@100	18.6	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	mR@20	11.2	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	12.4	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	F@100	19.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	mR@20	9.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	10.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
2D Semantic Segmentation	Visual Genome	F@100	15.1	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	mR@20	6.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	7.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	F@100	13.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	mR@20	9.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
2D Semantic Segmentation	Visual Genome	ng-mR@20	7.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	Recall@50	31.93	Causal-TDE
Scene Graph Generation	Visual Genome	mean Recall @20	6.9	Causal-TDE
Scene Graph Generation	Visual Genome	F@100	36.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	mR@20	19.2	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	ng-mR@20	20.9	TDE (VCTree-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	F@100	37.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	mR@20	17.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	ng-mR@20	18.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; PredCls mode)
Scene Graph Generation	Visual Genome	F@100	18.6	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	mR@20	11.2	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	ng-mR@20	12.4	TDE (VCTree-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	F@100	19.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	mR@20	9.9	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	ng-mR@20	10.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGCls mode)
Scene Graph Generation	Visual Genome	F@100	15.1	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	mR@20	6.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	ng-mR@20	7.8	TDE (VCTree-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	F@100	13.2	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	mR@20	9.7	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)
Scene Graph Generation	Visual Genome	ng-mR@20	7.4	TDE (MOTIFS-ResNeXt-101-FPN backbone; SGDet mode)

Unbiased Scene Graph Generation from Biased Training

Abstract

Results

Related Papers

Unbiased Scene Graph Generation from Biased Training

Abstract

Results

Related Papers