REX: Reasoning-aware and Grounded Explanation

Shi Chen, Qi Zhao

2022-03-11CVPR 2022 1Visual Grounding Explanatory Visual Question Answering Explanation Generation Transfer Learning Decision Making Visual Reasoning Multi-Task Learning FS-MEVQA

Paper PDF Code(official)

Abstract

Effectiveness and interpretability are two essential properties for trustworthy AI systems. Most recent studies in visual reasoning are dedicated to improving the accuracy of predicted answers, and less attention is paid to explaining the rationales behind the decisions. As a result, they commonly take advantage of spurious biases instead of actually reasoning on the visual-textual data, and have yet developed the capability to explain their decision making by considering key information from both modalities. This paper aims to close the gap from three distinct perspectives: first, we define a new type of multi-modal explanations that explain the decisions by progressively traversing the reasoning process and grounding keywords in the images. We develop a functional program to sequentially execute different reasoning steps and construct a new dataset with 1,040,830 multi-modal explanations. Second, we identify the critical need to tightly couple important components across the visual and textual modalities for explaining the decisions, and propose a novel explanation generation method that explicitly models the pairwise correspondence between words and regions of interest. It improves the visual grounding capability by a considerable margin, resulting in enhanced interpretability and reasoning performance. Finally, with our new data and method, we perform extensive analyses to study the effectiveness of our explanation under different settings, including multi-task learning and transfer learning. Our code and data are available at https://github.com/szzexpoi/rex.

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	GQA-REX	BLEU-4	54.79	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	CIDEr	466.01	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	GQA-test	58.15	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	GQA-val	78.19	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	Grounding	70.79	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	METEOR	39.51	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	ROUGE-L	79.41	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	SPICE	49.98	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	BLEU-4	54.59	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	CIDEr	464.2	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	GQA-test	57.77	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	GQA-val	66.16	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	Grounding	67.95	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	METEOR	39.22	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	ROUGE-L	78.56	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	SPICE	46.8	REX-VisualBert
Visual Question Answering (VQA)	SME	#Learning Samples (N)	16	REX
Visual Question Answering (VQA)	SME	ACC	17.77	REX
Visual Question Answering (VQA)	SME	CIDEr	0.89	REX
Visual Question Answering (VQA)	SME	METEOR	4.37	REX
Visual Question Answering (VQA)	SME	ROUGE-L	23.23	REX
Visual Question Answering	GQA-REX	BLEU-4	54.79	REX-LXMERT
Visual Question Answering	GQA-REX	CIDEr	466.01	REX-LXMERT
Visual Question Answering	GQA-REX	GQA-test	58.15	REX-LXMERT
Visual Question Answering	GQA-REX	GQA-val	78.19	REX-LXMERT
Visual Question Answering	GQA-REX	Grounding	70.79	REX-LXMERT
Visual Question Answering	GQA-REX	METEOR	39.51	REX-LXMERT
Visual Question Answering	GQA-REX	ROUGE-L	79.41	REX-LXMERT
Visual Question Answering	GQA-REX	SPICE	49.98	REX-LXMERT
Visual Question Answering	GQA-REX	BLEU-4	54.59	REX-VisualBert
Visual Question Answering	GQA-REX	CIDEr	464.2	REX-VisualBert
Visual Question Answering	GQA-REX	GQA-test	57.77	REX-VisualBert
Visual Question Answering	GQA-REX	GQA-val	66.16	REX-VisualBert
Visual Question Answering	GQA-REX	Grounding	67.95	REX-VisualBert
Visual Question Answering	GQA-REX	METEOR	39.22	REX-VisualBert
Visual Question Answering	GQA-REX	ROUGE-L	78.56	REX-VisualBert
Visual Question Answering	GQA-REX	SPICE	46.8	REX-VisualBert
Visual Question Answering	SME	#Learning Samples (N)	16	REX
Visual Question Answering	SME	ACC	17.77	REX
Visual Question Answering	SME	CIDEr	0.89	REX
Visual Question Answering	SME	METEOR	4.37	REX
Visual Question Answering	SME	ROUGE-L	23.23	REX
Explanatory Visual Question Answering	GQA-REX	BLEU-4	54.79	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	CIDEr	466.01	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	GQA-test	58.15	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	GQA-val	78.19	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	Grounding	70.79	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	METEOR	39.51	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	ROUGE-L	79.41	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	SPICE	49.98	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	BLEU-4	54.59	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	CIDEr	464.2	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	GQA-test	57.77	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	GQA-val	66.16	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	Grounding	67.95	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	METEOR	39.22	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	ROUGE-L	78.56	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	SPICE	46.8	REX-VisualBert
Explanatory Visual Question Answering	SME	#Learning Samples (N)	16	REX
Explanatory Visual Question Answering	SME	ACC	17.77	REX
Explanatory Visual Question Answering	SME	CIDEr	0.89	REX
Explanatory Visual Question Answering	SME	METEOR	4.37	REX
Explanatory Visual Question Answering	SME	ROUGE-L	23.23	REX

Abstract

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	GQA-REX	BLEU-4	54.79	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	CIDEr	466.01	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	GQA-test	58.15	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	GQA-val	78.19	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	Grounding	70.79	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	METEOR	39.51	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	ROUGE-L	79.41	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	SPICE	49.98	REX-LXMERT
Visual Question Answering (VQA)	GQA-REX	BLEU-4	54.59	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	CIDEr	464.2	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	GQA-test	57.77	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	GQA-val	66.16	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	Grounding	67.95	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	METEOR	39.22	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	ROUGE-L	78.56	REX-VisualBert
Visual Question Answering (VQA)	GQA-REX	SPICE	46.8	REX-VisualBert
Visual Question Answering (VQA)	SME	#Learning Samples (N)	16	REX
Visual Question Answering (VQA)	SME	ACC	17.77	REX
Visual Question Answering (VQA)	SME	CIDEr	0.89	REX
Visual Question Answering (VQA)	SME	METEOR	4.37	REX
Visual Question Answering (VQA)	SME	ROUGE-L	23.23	REX
Visual Question Answering	GQA-REX	BLEU-4	54.79	REX-LXMERT
Visual Question Answering	GQA-REX	CIDEr	466.01	REX-LXMERT
Visual Question Answering	GQA-REX	GQA-test	58.15	REX-LXMERT
Visual Question Answering	GQA-REX	GQA-val	78.19	REX-LXMERT
Visual Question Answering	GQA-REX	Grounding	70.79	REX-LXMERT
Visual Question Answering	GQA-REX	METEOR	39.51	REX-LXMERT
Visual Question Answering	GQA-REX	ROUGE-L	79.41	REX-LXMERT
Visual Question Answering	GQA-REX	SPICE	49.98	REX-LXMERT
Visual Question Answering	GQA-REX	BLEU-4	54.59	REX-VisualBert
Visual Question Answering	GQA-REX	CIDEr	464.2	REX-VisualBert
Visual Question Answering	GQA-REX	GQA-test	57.77	REX-VisualBert
Visual Question Answering	GQA-REX	GQA-val	66.16	REX-VisualBert
Visual Question Answering	GQA-REX	Grounding	67.95	REX-VisualBert
Visual Question Answering	GQA-REX	METEOR	39.22	REX-VisualBert
Visual Question Answering	GQA-REX	ROUGE-L	78.56	REX-VisualBert
Visual Question Answering	GQA-REX	SPICE	46.8	REX-VisualBert
Visual Question Answering	SME	#Learning Samples (N)	16	REX
Visual Question Answering	SME	ACC	17.77	REX
Visual Question Answering	SME	CIDEr	0.89	REX
Visual Question Answering	SME	METEOR	4.37	REX
Visual Question Answering	SME	ROUGE-L	23.23	REX
Explanatory Visual Question Answering	GQA-REX	BLEU-4	54.79	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	CIDEr	466.01	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	GQA-test	58.15	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	GQA-val	78.19	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	Grounding	70.79	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	METEOR	39.51	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	ROUGE-L	79.41	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	SPICE	49.98	REX-LXMERT
Explanatory Visual Question Answering	GQA-REX	BLEU-4	54.59	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	CIDEr	464.2	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	GQA-test	57.77	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	GQA-val	66.16	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	Grounding	67.95	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	METEOR	39.22	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	ROUGE-L	78.56	REX-VisualBert
Explanatory Visual Question Answering	GQA-REX	SPICE	46.8	REX-VisualBert
Explanatory Visual Question Answering	SME	#Learning Samples (N)	16	REX
Explanatory Visual Question Answering	SME	ACC	17.77	REX
Explanatory Visual Question Answering	SME	CIDEr	0.89	REX
Explanatory Visual Question Answering	SME	METEOR	4.37	REX
Explanatory Visual Question Answering	SME	ROUGE-L	23.23	REX

REX: Reasoning-aware and Grounded Explanation

Abstract

Results

Related Papers

REX: Reasoning-aware and Grounded Explanation

Abstract

Results

Related Papers