Visual Question Answering (VQA) on COCO Visual Question Answering (VQA) real images 1.0 open ended

Metric: Percentage correct (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	Percentage correct▼	Extra Data	Paper	Date↕	Code
1	MCB 7 att.	66.5	No	Multimodal Compact Bilinear Pooling for Visual Q...	2016-06-06	Code
2	Dual-MFA	66.09	No	Co-attending Free-form Regions and Detections wi...	2017-11-18	Code
3	QGHC+Att+Concat	65.9	No	Question-Guided Hybrid Convolution for Visual Qu...	2018-08-08	-
4	RelAtt	65.69	No	R-VQA: Learning Visual Relation Facts with Seman...	2018-05-24	Code
5	joint-loss	63.2	No	Training Recurrent Answering Units with Joint Lo...	2016-06-12	-
6	HQI+ResNet	62.1	No	Hierarchical Question-Image Co-Attention for Vis...	2016-05-31	Code
7	MRN + global features	61.8	No	Multimodal Residual Learning for Visual QA	2016-06-05	Code
8	DMN+ [xiong2016dynamic]	60.4	No	Dynamic Memory Networks for Visual and Textual Q...	2016-03-04	Code
9	CNN-RNN	59.5	No	Image Captioning and Visual Question Answering B...	2016-03-09	-
10	FDA	59.5	No	A Focused Dynamic Attention Model for Visual Que...	2016-04-06	-
11	SAN	58.9	No	Stacked Attention Networks for Image Question An...	2015-11-07	Code
12	LSTM Q+I	58.2	No	VQA: Visual Question Answering	2015-05-03	Code
13	SMem-VQA	58.2	No	Ask, Attend and Answer: Exploring Question-Guide...	2015-11-17	Code
14	iBOWIMG baseline	55.9	No	Simple Baseline for Visual Question Answering	2015-12-07	Code

#1MCB 7 att.SOTA
66.5
Percentage correct· 2016-06-06
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Code
#2Dual-MFA
66.09
Percentage correct· 2017-11-18
Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering Code
#3QGHC+Att+Concat
65.9
Percentage correct· 2018-08-08
Question-Guided Hybrid Convolution for Visual Question Answering
#4RelAtt
65.69
Percentage correct· 2018-05-24
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering Code
#5joint-loss
63.2
Percentage correct· 2016-06-12
Training Recurrent Answering Units with Joint Loss Minimization for VQA
#6HQI+ResNetSOTA
62.1
Percentage correct· 2016-05-31
Hierarchical Question-Image Co-Attention for Visual Question Answering Code
#7MRN + global features
61.8
Percentage correct· 2016-06-05
Multimodal Residual Learning for Visual QA Code
#8DMN+ [xiong2016dynamic]SOTA
60.4
Percentage correct· 2016-03-04
Dynamic Memory Networks for Visual and Textual Question Answering Code
#9CNN-RNN
59.5
Percentage correct· 2016-03-09
Image Captioning and Visual Question Answering Based on Attributes and External Knowledge
#10FDA
59.5
Percentage correct· 2016-04-06
A Focused Dynamic Attention Model for Visual Question Answering
#11SANSOTA
58.9
Percentage correct· 2015-11-07
Stacked Attention Networks for Image Question Answering Code
#12LSTM Q+ISOTA
58.2
Percentage correct· 2015-05-03
VQA: Visual Question Answering Code
#13SMem-VQA
58.2
Percentage correct· 2015-11-17
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering Code
#14iBOWIMG baseline
55.9
Percentage correct· 2015-12-07
Simple Baseline for Visual Question Answering Code