UnifiedQA: Crossing Format Boundaries With a Single QA System

Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, Hannaneh Hajishirzi

2020-05-02Findings of the Association for Computational Linguistics 2020Question Answering Multi-task Language Understanding Common Sense Reasoning Multi-Task Learning Language Modelling Multiple-choice

Paper PDF Code(official)Code

Abstract

Question answering (QA) tasks have been posed using a variety of formats, such as extractive span selection, multiple choice, etc. This has led to format-specialized models, and even to an implicit division in the QA community. We argue that such boundaries are artificial and perhaps unnecessary, given the reasoning abilities we seek to teach are not governed by the format. As evidence, we use the latest advances in language modeling to build a single pre-trained QA model, UnifiedQA, that performs surprisingly well across 17 QA datasets spanning 4 diverse formats. UnifiedQA performs on par with 9 different models that were trained on individual datasets themselves. Even when faced with 12 unseen datasets of observed formats, UnifiedQA performs surprisingly well, showing strong generalization from its out-of-format training data. Finally, simply fine-tuning this pre-trained QA model into specialized models results in a new state of the art on 6 datasets, establishing UnifiedQA as a strong starting point for building QA systems.

Results

Task	Dataset	Metric	Value	Model
Question Answering	SIQA	Accuracy	79.8	UnifiedQA 3B
Question Answering	PIQA	Accuracy	85.3	UnifiedQA 3B
Question Answering	OpenBookQA	Accuracy	87.2	UnifiedQA 11B
Common Sense Reasoning	WinoGrande	Accuracy	89.4	UnifiedQA 11B (fine-tuned)
Common Sense Reasoning	WinoGrande	Accuracy	73.3	Unified QA 406M (fine-tuned)
Common Sense Reasoning	CommonsenseQA	Accuracy	79.1	UnifiedQA 11B (fine-tuned)
Common Sense Reasoning	CommonsenseQA	Accuracy	78.1	T5-XXL 11B (fine-tuned)
Common Sense Reasoning	CommonsenseQA	Accuracy	76.2	UnifiedQA 11B (zero-shot)
Common Sense Reasoning	CommonsenseQA	Accuracy	64	UnifiedQA 440M (fine-tuned)
Common Sense Reasoning	CommonsenseQA	Accuracy	62.5	BART-large 440M (fine-tuned)

UnifiedQA: Crossing Format Boundaries With a Single QA System

Abstract

Results

Related Papers

UnifiedQA: Crossing Format Boundaries With a Single QA System

Abstract

Results

Related Papers