Large-Scale CLIR Dataset

TextsCC BY-SA 4.0Introduced 2018-06-01

The Large-Scale CLIR Dataset is a retrieval dataset built for Cross-Language Information Retrieval (CLIR). The dataset is derived from Wikipedia and contains more 2.8 million English single-sentence queries with relevant documents from 25 other selected languages.