SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

ZiRui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan Cao

2021-08-24ICLR 2022 4Question Answering Image Captioning Visual Question Answering (VQA)Language Modelling Visual Question Answering

Paper PDF Code Code

Abstract

With recent progress in joint modeling of visual and textual representations, Vision-Language Pretraining (VLP) has achieved impressive performance on many multimodal downstream tasks. However, the requirement for expensive annotations including clean image captions and regional labels limits the scalability of existing approaches, and complicates the pretraining procedure with the introduction of multiple dataset-specific objectives. In this work, we relax these constraints and present a minimalist pretraining framework, named Simple Visual Language Model (SimVLM). Unlike prior work, SimVLM reduces the training complexity by exploiting large-scale weak supervision, and is trained end-to-end with a single prefix language modeling objective. Without utilizing extra data or task-specific customization, the resulting model significantly outperforms previous pretraining methods and achieves new state-of-the-art results on a wide range of discriminative and generative vision-language benchmarks, including VQA (+3.74% vqa-score), NLVR2 (+1.17% accuracy), SNLI-VE (+1.37% accuracy) and image captioning tasks (+10.1% average CIDEr score). Furthermore, we demonstrate that SimVLM acquires strong generalization and transfer ability, enabling zero-shot behavior including open-ended visual question answering and cross-modality transfer.

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	VQA v2 test-dev	Accuracy	80.03	SimVLM
Visual Question Answering (VQA)	VQA v2 test-std	overall	80.34	SimVLM
Visual Reasoning	NLVR2 Dev	Accuracy	84.53	SimVLM
Visual Reasoning	NLVR2 Test	Accuracy	85.15	SimVLM
Natural Language Inference	SNLI-VE val	Accuracy	86.21	SimVLM
Natural Language Inference	SNLI-VE test	Accuracy	86.32	SimVLM
Image Captioning	nocaps near-domain	B1	84.36	Single Model
Image Captioning	nocaps near-domain	B2	69.83	Single Model
Image Captioning	nocaps near-domain	B3	52.42	Single Model
Image Captioning	nocaps near-domain	B4	33.74	Single Model
Image Captioning	nocaps near-domain	CIDEr	110.76	Single Model
Image Captioning	nocaps near-domain	METEOR	30.97	Single Model
Image Captioning	nocaps near-domain	ROUGE-L	60.46	Single Model
Image Captioning	nocaps near-domain	SPICE	14.61	Single Model
Image Captioning	nocaps entire	B1	83.78	Single Model
Image Captioning	nocaps entire	B2	68.86	Single Model
Image Captioning	nocaps entire	B3	51.06	Single Model
Image Captioning	nocaps entire	B4	32.2	Single Model
Image Captioning	nocaps entire	CIDEr	110.31	Single Model
Image Captioning	nocaps entire	METEOR	30.55	Single Model
Image Captioning	nocaps entire	ROUGE-L	59.86	Single Model
Image Captioning	nocaps entire	SPICE	14.49	Single Model
Image Captioning	nocaps-val-out-domain	CIDEr	115.2	SimVLM
Image Captioning	nocaps-val-near-domain	CIDEr	110.9	SimVLM
Image Captioning	COCO Captions	BLEU-4	40.6	SimVLM
Image Captioning	COCO Captions	CIDER	143.3	SimVLM
Image Captioning	COCO Captions	METEOR	33.4	SimVLM
Image Captioning	COCO Captions	SPICE	25.4	SimVLM
Image Captioning	nocaps out-of-domain	B1	80.89	Single Model
Image Captioning	nocaps out-of-domain	B2	64.21	Single Model
Image Captioning	nocaps out-of-domain	B3	44.38	Single Model
Image Captioning	nocaps out-of-domain	B4	24.47	Single Model
Image Captioning	nocaps out-of-domain	CIDEr	109.49	Single Model
Image Captioning	nocaps out-of-domain	METEOR	27.91	Single Model
Image Captioning	nocaps out-of-domain	ROUGE-L	56.69	Single Model
Image Captioning	nocaps out-of-domain	SPICE	13.89	Single Model
Image Captioning	nocaps-val-overall	CIDEr	112.2	SimVLM
Image Captioning	nocaps in-domain	B1	84.64	Single Model
Image Captioning	nocaps in-domain	B2	70	Single Model
Image Captioning	nocaps in-domain	B3	52.96	Single Model
Image Captioning	nocaps in-domain	B4	34.66	Single Model
Image Captioning	nocaps in-domain	CIDEr	108.98	Single Model
Image Captioning	nocaps in-domain	METEOR	31.97	Single Model
Image Captioning	nocaps in-domain	ROUGE-L	61.01	Single Model
Image Captioning	nocaps in-domain	SPICE	14.6	Single Model
Image Captioning	nocaps-val-in-domain	CIDEr	113.7	SimVLM

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

Abstract

Results

Related Papers

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

Abstract

Results

Related Papers