ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Wonjae Kim, Bokyung Son, Ildoo Kim

2021-02-05Cross-Modal Retrieval Zero-Shot Cross-Modal Retrieval Multimodal Intent Recognition Visual Reasoning Visual Question Answering (VQA)object-detection Image Retrieval

Paper PDF Code Code Code Code(official)Code Code

Abstract

Vision-and-Language Pre-training (VLP) has improved performance on various joint vision-and-language downstream tasks. Current approaches to VLP heavily rely on image feature extraction processes, most of which involve region supervision (e.g., object detection) and the convolutional architecture (e.g., ResNet). Although disregarded in the literature, we find it problematic in terms of both (1) efficiency/speed, that simply extracting input features requires much more computation than the multimodal interaction steps; and (2) expressive power, as it is upper bounded to the expressive power of the visual embedder and its predefined visual vocabulary. In this paper, we present a minimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in the sense that the processing of visual inputs is drastically simplified to just the same convolution-free manner that we process textual inputs. We show that ViLT is up to tens of times faster than previous VLP models, yet with competitive or better downstream task performance. Our code and pre-trained weights are available at https://github.com/dandelin/vilt.

Results

Task	Dataset	Metric	Value	Model
Reading Comprehension	PhotoChat	F1	52.4	ViLT
Reading Comprehension	PhotoChat	Precision	55.4	ViLT
Reading Comprehension	PhotoChat	Recall	58.9	ViLT
Reading Comprehension	MMDialog	F1	55.8	ViLT
Visual Question Answering (VQA)	VQA v2 test-dev	Accuracy	71.26	ViLT-B/32
Visual Reasoning	NLVR2 Dev	Accuracy	75.7	ViLT-B/32
Visual Reasoning	NLVR2 Test	Accuracy	76.13	ViLT-B/32
Image Retrieval	PhotoChat	R1	11.5	ViLT
Image Retrieval	PhotoChat	R@10	25.6	ViLT
Image Retrieval	PhotoChat	R@5	33.8	ViLT
Image Retrieval	PhotoChat	Sum(R@1,5,10)	71	ViLT
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@1	83.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@10	98.6	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@5	96.7	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@1	64.4	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@10	93.8	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@5	88.7	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@1	61.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@10	92.7	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@5	86.3	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@1	42.7	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@10	83.1	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@5	72.9	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@1	73.2	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@10	96.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@5	93.6	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@1	55	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@10	89.8	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@5	82.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@1	56.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@10	89.6	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@5	82.6	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@1	40.4	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@10	81.1	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@5	70	ViLT-B/32
Intent Recognition	PhotoChat	F1	52.4	ViLT
Intent Recognition	PhotoChat	Precision	55.4	ViLT
Intent Recognition	PhotoChat	Recall	58.9	ViLT
Intent Recognition	MMDialog	F1	55.8	ViLT
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@1	83.5	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@10	98.6	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@5	96.7	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@1	64.4	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@10	93.8	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@5	88.7	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Image-to-text R@1	61.5	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Image-to-text R@10	92.7	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Image-to-text R@5	86.3	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Text-to-image R@1	42.7	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Text-to-image R@10	83.1	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Text-to-image R@5	72.9	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Image-to-text R@1	83.5	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Image-to-text R@10	98.6	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Image-to-text R@5	96.7	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Text-to-image R@1	64.4	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Text-to-image R@10	93.8	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Text-to-image R@5	88.7	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Image-to-text R@1	61.5	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Image-to-text R@10	92.7	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Image-to-text R@5	86.3	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Text-to-image R@1	42.7	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Text-to-image R@10	83.1	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Text-to-image R@5	72.9	ViLT-B/32

Abstract

Results

Task	Dataset	Metric	Value	Model
Reading Comprehension	PhotoChat	F1	52.4	ViLT
Reading Comprehension	PhotoChat	Precision	55.4	ViLT
Reading Comprehension	PhotoChat	Recall	58.9	ViLT
Reading Comprehension	MMDialog	F1	55.8	ViLT
Visual Question Answering (VQA)	VQA v2 test-dev	Accuracy	71.26	ViLT-B/32
Visual Reasoning	NLVR2 Dev	Accuracy	75.7	ViLT-B/32
Visual Reasoning	NLVR2 Test	Accuracy	76.13	ViLT-B/32
Image Retrieval	PhotoChat	R1	11.5	ViLT
Image Retrieval	PhotoChat	R@10	25.6	ViLT
Image Retrieval	PhotoChat	R@5	33.8	ViLT
Image Retrieval	PhotoChat	Sum(R@1,5,10)	71	ViLT
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@1	83.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@10	98.6	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@5	96.7	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@1	64.4	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@10	93.8	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@5	88.7	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@1	61.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@10	92.7	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@5	86.3	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@1	42.7	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@10	83.1	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@5	72.9	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@1	73.2	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@10	96.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@5	93.6	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@1	55	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@10	89.8	ViLT-B/32
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@5	82.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@1	56.5	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@10	89.6	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Image-to-text R@5	82.6	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@1	40.4	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@10	81.1	ViLT-B/32
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@5	70	ViLT-B/32
Intent Recognition	PhotoChat	F1	52.4	ViLT
Intent Recognition	PhotoChat	Precision	55.4	ViLT
Intent Recognition	PhotoChat	Recall	58.9	ViLT
Intent Recognition	MMDialog	F1	55.8	ViLT
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@1	83.5	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@10	98.6	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@5	96.7	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@1	64.4	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@10	93.8	ViLT-B/32
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@5	88.7	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Image-to-text R@1	61.5	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Image-to-text R@10	92.7	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Image-to-text R@5	86.3	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Text-to-image R@1	42.7	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Text-to-image R@10	83.1	ViLT-B/32
Cross-Modal Information Retrieval	COCO 2014	Text-to-image R@5	72.9	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Image-to-text R@1	83.5	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Image-to-text R@10	98.6	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Image-to-text R@5	96.7	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Text-to-image R@1	64.4	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Text-to-image R@10	93.8	ViLT-B/32
Cross-Modal Retrieval	Flickr30k	Text-to-image R@5	88.7	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Image-to-text R@1	61.5	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Image-to-text R@10	92.7	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Image-to-text R@5	86.3	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Text-to-image R@1	42.7	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Text-to-image R@10	83.1	ViLT-B/32
Cross-Modal Retrieval	COCO 2014	Text-to-image R@5	72.9	ViLT-B/32

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Abstract

Results

Related Papers

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Abstract

Results

Related Papers