ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning

Weihao Yu, Zi-Hang Jiang, Yanfei Dong, Jiashi Feng

2020-02-11ICLR 2020 1Reading Comprehension Question Answering Logical Reasoning Logical Reasoning Question Answering Logical Reasoning Reading Comprehension Machine Reading Comprehension

Paper PDF Code(official)

Abstract

Recent powerful pre-trained language models have achieved remarkable performance on most of the popular datasets for reading comprehension. It is time to introduce more challenging datasets to push the development of this field towards more comprehensive reasoning of text. In this paper, we introduce a new Reading Comprehension dataset requiring logical reasoning (ReClor) extracted from standardized graduate admission examinations. As earlier studies suggest, human-annotated datasets usually contain biases, which are often exploited by models to achieve high accuracy without truly understanding the text. In order to comprehensively evaluate the logical reasoning ability of models on ReClor, we propose to identify biased data points and separate them into EASY set while the rest as HARD set. Empirical results show that state-of-the-art models have an outstanding ability to capture biases contained in the dataset with high accuracy on EASY set. However, they struggle on HARD set with poor performance near that of random guess, indicating more research is needed to essentially enhance the logical reasoning ability of current models.

Results

Task	Dataset	Metric	Value	Model
Reading Comprehension	ReClor	Test	56	XLNet-large
Reading Comprehension	ReClor	Test	55.6	RoBERTa-large
Reading Comprehension	ReClor	Test	50.4	XLNet-base
Reading Comprehension	ReClor	Test	49.8	BERT-large
Reading Comprehension	ReClor	Test	48.5	RoBERTa-base
Reading Comprehension	ReClor	Test	47.3	BERT-base
Reading Comprehension	ReClor	Accuracy	56	XLNet-large
Reading Comprehension	ReClor	Accuracy (easy)	75.7	XLNet-large
Reading Comprehension	ReClor	Accuracy (hard)	40.5	XLNet-large
Reading Comprehension	ReClor	Accuracy	55.6	RoBERTa-large
Reading Comprehension	ReClor	Accuracy (easy)	75.5	RoBERTa-large
Reading Comprehension	ReClor	Accuracy (hard)	40	RoBERTa-large
Reading Comprehension	ReClor	Accuracy	49.8	BERT-large
Reading Comprehension	ReClor	Accuracy (easy)	72	BERT-large
Reading Comprehension	ReClor	Accuracy (hard)	32.3	BERT-large
Question Answering	ReClor	Accuracy	56	XLNet-large
Question Answering	ReClor	Accuracy (easy)	75.7	XLNet-large
Question Answering	ReClor	Accuracy (hard)	40.5	XLNet-large
Question Answering	ReClor	Accuracy	55.6	RoBERTa-large
Question Answering	ReClor	Accuracy (easy)	75.5	RoBERTa-large
Question Answering	ReClor	Accuracy (hard)	40	RoBERTa-large
Question Answering	ReClor	Accuracy	49.8	BERT-large
Question Answering	ReClor	Accuracy (easy)	72	BERT-large
Question Answering	ReClor	Accuracy (hard)	32.3	BERT-large
Question Answering	ReClor	Accuracy	56	XLNet-large
Question Answering	ReClor	Accuracy (easy)	75.7	XLNet-large
Question Answering	ReClor	Accuracy (hard)	40.5	XLNet-large
Question Answering	ReClor	Accuracy	55.6	RoBERTa-large
Question Answering	ReClor	Accuracy (easy)	75.5	RoBERTa-large
Question Answering	ReClor	Accuracy (hard)	40	RoBERTa-large
Question Answering	ReClor	Accuracy	49.8	BERT-large
Question Answering	ReClor	Accuracy (easy)	72	BERT-large
Question Answering	ReClor	Accuracy (hard)	32.3	BERT-large
Visual Question Answering (VQA)	ReClor	Accuracy	56	XLNet-large
Visual Question Answering (VQA)	ReClor	Accuracy (easy)	75.7	XLNet-large
Visual Question Answering (VQA)	ReClor	Accuracy (hard)	40.5	XLNet-large
Visual Question Answering (VQA)	ReClor	Accuracy	55.6	RoBERTa-large
Visual Question Answering (VQA)	ReClor	Accuracy (easy)	75.5	RoBERTa-large
Visual Question Answering (VQA)	ReClor	Accuracy (hard)	40	RoBERTa-large
Visual Question Answering (VQA)	ReClor	Accuracy	49.8	BERT-large
Visual Question Answering (VQA)	ReClor	Accuracy (easy)	72	BERT-large
Visual Question Answering (VQA)	ReClor	Accuracy (hard)	32.3	BERT-large

Abstract

Results

Task	Dataset	Metric	Value	Model
Reading Comprehension	ReClor	Test	56	XLNet-large
Reading Comprehension	ReClor	Test	55.6	RoBERTa-large
Reading Comprehension	ReClor	Test	50.4	XLNet-base
Reading Comprehension	ReClor	Test	49.8	BERT-large
Reading Comprehension	ReClor	Test	48.5	RoBERTa-base
Reading Comprehension	ReClor	Test	47.3	BERT-base
Reading Comprehension	ReClor	Accuracy	56	XLNet-large
Reading Comprehension	ReClor	Accuracy (easy)	75.7	XLNet-large
Reading Comprehension	ReClor	Accuracy (hard)	40.5	XLNet-large
Reading Comprehension	ReClor	Accuracy	55.6	RoBERTa-large
Reading Comprehension	ReClor	Accuracy (easy)	75.5	RoBERTa-large
Reading Comprehension	ReClor	Accuracy (hard)	40	RoBERTa-large
Reading Comprehension	ReClor	Accuracy	49.8	BERT-large
Reading Comprehension	ReClor	Accuracy (easy)	72	BERT-large
Reading Comprehension	ReClor	Accuracy (hard)	32.3	BERT-large
Question Answering	ReClor	Accuracy	56	XLNet-large
Question Answering	ReClor	Accuracy (easy)	75.7	XLNet-large
Question Answering	ReClor	Accuracy (hard)	40.5	XLNet-large
Question Answering	ReClor	Accuracy	55.6	RoBERTa-large
Question Answering	ReClor	Accuracy (easy)	75.5	RoBERTa-large
Question Answering	ReClor	Accuracy (hard)	40	RoBERTa-large
Question Answering	ReClor	Accuracy	49.8	BERT-large
Question Answering	ReClor	Accuracy (easy)	72	BERT-large
Question Answering	ReClor	Accuracy (hard)	32.3	BERT-large
Question Answering	ReClor	Accuracy	56	XLNet-large
Question Answering	ReClor	Accuracy (easy)	75.7	XLNet-large
Question Answering	ReClor	Accuracy (hard)	40.5	XLNet-large
Question Answering	ReClor	Accuracy	55.6	RoBERTa-large
Question Answering	ReClor	Accuracy (easy)	75.5	RoBERTa-large
Question Answering	ReClor	Accuracy (hard)	40	RoBERTa-large
Question Answering	ReClor	Accuracy	49.8	BERT-large
Question Answering	ReClor	Accuracy (easy)	72	BERT-large
Question Answering	ReClor	Accuracy (hard)	32.3	BERT-large
Visual Question Answering (VQA)	ReClor	Accuracy	56	XLNet-large
Visual Question Answering (VQA)	ReClor	Accuracy (easy)	75.7	XLNet-large
Visual Question Answering (VQA)	ReClor	Accuracy (hard)	40.5	XLNet-large
Visual Question Answering (VQA)	ReClor	Accuracy	55.6	RoBERTa-large
Visual Question Answering (VQA)	ReClor	Accuracy (easy)	75.5	RoBERTa-large
Visual Question Answering (VQA)	ReClor	Accuracy (hard)	40	RoBERTa-large
Visual Question Answering (VQA)	ReClor	Accuracy	49.8	BERT-large
Visual Question Answering (VQA)	ReClor	Accuracy (easy)	72	BERT-large
Visual Question Answering (VQA)	ReClor	Accuracy (hard)	32.3	BERT-large

ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning

Abstract

Results

Related Papers

ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning

Abstract

Results

Related Papers