Unifying Vision-and-Language Tasks via Text Generation

Jaemin Cho, Jie Lei, Hao Tan, Mohit Bansal

2021-02-04Question Answering Text Generation Referring Expression Referring Expression Comprehension Image Captioning Multi-Task Learning Visual Question Answering (VQA)Visual Commonsense Reasoning Conditional Text Generation Language Modelling Visual Question Answering

Paper PDF Code Code(official)

Abstract

Existing methods for vision-and-language learning typically require designing task-specific architectures and objectives for each task. For example, a multi-label answer classifier for visual question answering, a region scorer for referring expression comprehension, and a language decoder for image captioning, etc. To alleviate these hassles, in this work, we propose a unified framework that learns different tasks in a single architecture with the same language modeling objective, i.e., multimodal conditional text generation, where our models learn to generate labels in text based on the visual and textual inputs. On 7 popular vision-and-language benchmarks, including visual question answering, referring expression comprehension, visual commonsense reasoning, most of which have been previously modeled as discriminative tasks, our generative approach (with a single unified architecture) reaches comparable performance to recent task-specific state-of-the-art vision-and-language models. Moreover, our generative approach shows better generalization ability on questions that have rare answers. Also, we show that our framework allows multi-task learning in a single architecture with a single set of parameters, achieving similar performance to separately optimized single-task models. Our code is publicly available at: https://github.com/j-min/VL-T5

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	VCR (Q-AR) test	Accuracy	58.9	VL-T5
Visual Question Answering (VQA)	VCR (QA-R) test	Accuracy	77.8	VL-T5
Visual Question Answering (VQA)	VCR (Q-A) test	Accuracy	75.3	VL-T5
Image Captioning	nocaps val	CIDEr	4.4	VL-T5
Image Captioning	nocaps val	SPICE	5.3	VL-T5
Image Captioning	Flickr30k Captions test	CIDEr	2.6	VL-T5
Image Captioning	Flickr30k Captions test	SPICE	2	VL-T5

Unifying Vision-and-Language Tasks via Text Generation

Abstract

Results

Related Papers

Unifying Vision-and-Language Tasks via Text Generation

Abstract

Results

Related Papers