GQA

ImagesTextsCC BY 4.0Introduced 2019-01-01

The GQA dataset is a large-scale visual question answering dataset with real images from the Visual Genome dataset and balanced question-answer pairs. Each training and validation image is also associated with scene graph annotations describing the classes and attributes of those objects in the scene, and their pairwise relations. Along with the images and question-answer pairs, the GQA dataset provides two types of pre-extracted visual features for each image – convolutional grid features of size 7×7×2048 extracted from a ResNet-101 network trained on ImageNet, and object detection features of size Ndet×2048 (where Ndet is the number of detected objects in each image with a maximum of 100 per image) from a Faster R-CNN detector.

Source: Language-Conditioned Graph Networks for Relational Reasoning Image Source: https://arxiv.org/pdf/1902.09506.pdf

Benchmarks

16k/mAP 2D Classification/mAP 2D Object Detection/mAP 2D Semantic Segmentation/zR@100 2D Semantic Segmentation/zR@20 2D Semantic Segmentation/zR@50 3D/mAP Graph Question Answering/Accuracy Object Detection/mAP Scene Graph Generation/zR@100 Scene Graph Generation/zR@20 Scene Graph Generation/zR@50 Scene Parsing/zR@100 Scene Parsing/zR@20 Scene Parsing/zR@50 Visual Question Answering/Accuracy Visual Question Answering (VQA)/Accuracy

Related Benchmarks

GQA Test2019/Visual Question Answering (VQA)/Accuracy GQA Test2019/Visual Question Answering (VQA)/Binary GQA Test2019/Visual Question Answering (VQA)/Consistency GQA Test2019/Visual Question Answering (VQA)/Distribution GQA Test2019/Visual Question Answering (VQA)/Open GQA Test2019/Visual Question Answering (VQA)/Plausibility GQA Test2019/Visual Question Answering (VQA)/Validity GQA test-dev/Visual Question Answering (VQA)/Accuracy GQA test-std/Visual Question Answering (VQA)/Accuracy GQA-REX/Explanatory Visual Question Answering/BLEU-4 GQA-REX/Explanatory Visual Question Answering/CIDEr GQA-REX/Explanatory Visual Question Answering/GQA-test GQA-REX/Explanatory Visual Question Answering/GQA-val GQA-REX/Explanatory Visual Question Answering/Grounding GQA-REX/Explanatory Visual Question Answering/METEOR GQA-REX/Explanatory Visual Question Answering/ROUGE-L GQA-REX/Explanatory Visual Question Answering/SPICE GQA-REX/Visual Question Answering/BLEU-4 GQA-REX/Visual Question Answering/CIDEr GQA-REX/Visual Question Answering/GQA-test GQA-REX/Visual Question Answering/GQA-val GQA-REX/Visual Question Answering/Grounding GQA-REX/Visual Question Answering/METEOR GQA-REX/Visual Question Answering/ROUGE-L GQA-REX/Visual Question Answering/SPICE GQA-REX/Visual Question Answering (VQA)/BLEU-4 GQA-REX/Visual Question Answering (VQA)/CIDEr GQA-REX/Visual Question Answering (VQA)/GQA-test GQA-REX/Visual Question Answering (VQA)/GQA-val GQA-REX/Visual Question Answering (VQA)/Grounding GQA-REX/Visual Question Answering (VQA)/METEOR GQA-REX/Visual Question Answering (VQA)/ROUGE-L GQA-REX/Visual Question Answering (VQA)/SPICE