COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu

2023-06-15Question Answering Video Captioning on MSR-VTT Video Retrieval Form Video Question Answering Video Captioning Retrieval Visual Question Answering (VQA)TGIF-Frame

Paper PDF Code(official)

Abstract

Due to the limited scale and quality of video-text training corpus, most vision-language foundation models employ image-text datasets for pretraining and primarily focus on modeling visually semantic representations while disregarding temporal semantic representations and correlations. To address this issue, we propose COSA, a COncatenated SAmple pretrained vision-language foundation model. COSA jointly models visual contents and event-level temporal cues using only image-text corpora. We achieve this by sequentially concatenating multiple image-text pairs as inputs for pretraining. This transformation effectively converts existing image-text corpora into a pseudo long-form video-paragraph corpus, enabling richer scene transformations and explicit event-description correspondence. Extensive experiments demonstrate that COSA consistently improves performance across a broad range of downstream tasks, including long-form/short-form video-text tasks and image-text tasks such as retrieval, captioning, and question answering. Notably, COSA achieves state-of-the-art results on various competitive benchmarks. Code and model are released at https://github.com/TXH-mercury/COSA.

Results

Task	Dataset	Metric	Value	Model
Video	ActivityNet	text-to-video R@1	67.3	COSA
Video	DiDeMo	text-to-video R@1	70.5	COSA
Video	MSR-VTT	text-to-video R@1	57.9	COSA
Video	LSMDC	text-to-video R@1	39.4	COSA
Visual Question Answering (VQA)	MSVD-QA	Accuracy	0.6	COSA
Video Question Answering	ActivityNet-QA	Accuracy	49.9	COSA
Video Question Answering	MSRVTT-QA	Accuracy	49.2	COSA
Video Captioning	MSR-VTT	BLEU-4	53.7	COSA
Video Captioning	MSR-VTT	CIDEr	74.7	COSA
Video Captioning	VATEX	BLEU-4	43.7	COSA
Video Captioning	VATEX	CIDEr	96.5	COSA
Video Captioning	TVC	BLEU-4	18.8	COSA
Video Captioning	TVC	CIDEr	70.7	COSA
Video Captioning	YouCook2	BLEU-4	10.1	COSA
Video Captioning	YouCook2	CIDEr	1.31	COSA
Video Captioning	MSVD	BLEU-4	76.5	COSA
Video Captioning	MSVD	CIDEr	178.5	COSA
Video Retrieval	ActivityNet	text-to-video R@1	67.3	COSA
Video Retrieval	DiDeMo	text-to-video R@1	70.5	COSA
Video Retrieval	MSR-VTT	text-to-video R@1	57.9	COSA
Video Retrieval	LSMDC	text-to-video R@1	39.4	COSA

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Abstract

Results

Related Papers

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

Abstract

Results

Related Papers