WIT

Wikipedia-based Image Text

ImagesTextsIntroduced 2021-03-02

Wikipedia-based Image Text (WIT) Dataset is a large multimodal multilingual dataset. WIT is composed of a curated set of 37.6 million entity rich image-text examples with 11.5 million unique images across 108 Wikipedia languages. Its size enables WIT to be used as a pretraining dataset for multimodal machine learning models.

Key Advantages

A few unique advantages of WIT:

The largest multimodal dataset (time of this writing) by the number of image-text examples.
A massively multilingual (first of its kind) with coverage for over 100+ languages.
A collection of diverse set of concepts and real world entities.
Brings forth challenging real-world test sets.

Benchmarks

Image Retrieval/R@1 Image Retrieval/R@5

Related Benchmarks

WITS/Abstractive Text Summarization/BERTScore WITS/Abstractive Text Summarization/ROUGE-1 WITS/Abstractive Text Summarization/ROUGE-2 WITS/Abstractive Text Summarization/ROUGE-L WITS/Sarcasm Detection/R1 WITS/Text Summarization/BERTScore WITS/Text Summarization/ROUGE-1 WITS/Text Summarization/ROUGE-2 WITS/Text Summarization/ROUGE-L