Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

SME

Standard Multimodal Explanation

ImagesTextsApache-2.0Introduced 2024-10-28

SME is a new dataset for Multi-modal Explanation for Visual Question Answering comprising 1,028,230 samples, with 1,656 visual objects requiring detection in explanations. To our knowledge, this is the first dataset where the explanations are in standard English with additional visual grounding tokens.

Benchmarks

Explanatory Visual Question Answering/BLEU-4 Explanatory Visual Question Answering/METEOR Explanatory Visual Question Answering/ROUGE-L Explanatory Visual Question Answering/CIDEr Explanatory Visual Question Answering/SPICE Explanatory Visual Question Answering/Detection Explanatory Visual Question Answering/ACC Explanatory Visual Question Answering/#Learning Samples (N)Visual Question Answering/BLEU-4 Visual Question Answering/METEOR Visual Question Answering/ROUGE-L Visual Question Answering/CIDEr Visual Question Answering/SPICE Visual Question Answering/Detection Visual Question Answering/ACC Visual Question Answering/#Learning Samples (N)Visual Question Answering (VQA)/BLEU-4 Visual Question Answering (VQA)/METEOR Visual Question Answering (VQA)/ROUGE-L Visual Question Answering (VQA)/CIDEr Visual Question Answering (VQA)/SPICE Visual Question Answering (VQA)/Detection Visual Question Answering (VQA)/ACC Visual Question Answering (VQA)/#Learning Samples (N)

Statistics

Papers: 7
Benchmarks: 24

Links

Tasks

Explanatory Visual Question Answering FS-MEVQA Visual Question Answering Visual Question Answering (VQA)