VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

Jing Liu, Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang

2023-04-17Cross-Modal Retrieval Question Answering Text Generation Text to Audio Retrieval Video Retrieval Video Question Answering Audio captioning Video Captioning Image Captioning Audio-visual Question Answering Audio-Video Question Answering (AVQA)Retrieval Visual Question Answering (VQA)Zero-shot Text to Audio Retrieval Conditional Text Generation TGIF-Frame Audio-Visual Question Answering (AVQA)

Paper PDF Code(official)

Abstract

In this paper, we propose a Vision-Audio-Language Omni-peRception pretraining model (VALOR) for multi-modal understanding and generation. Different from widely-studied vision-language pretraining models, VALOR jointly models relationships of vision, audio and language in an end-to-end manner. It contains three separate encoders for single modality representations, and a decoder for multimodal conditional text generation. We design two pretext tasks to pretrain VALOR model, including Multimodal Grouping Alignment (MGA) and Multimodal Grouping Captioning (MGC). MGA projects vision, language and audio to the same common space, building vision-language, audio-language and audiovisual-language alignment simultaneously. MGC learns how to generate text tokens in conditions of vision, audio or their both. To promote vision-audio-language pretraining research, we construct a large-scale high-quality tri-modality dataset named VALOR-1M, which contains 1M audiable videos with human annotated audiovisual captions. Extensive experiments show that VALOR can learn strong multimodal correlations and be generalized to various downstream tasks (e.g., retrieval, captioning and question answering), with different input modalities (e.g., vision-language, audio-language and audiovisual-language). VALOR achieves new state-of-the-art performances on series of public cross-modality benchmarks. Code and data are available at project page https://casia-iva-group.github.io/projects/VALOR.

Results

Task	Dataset	Metric	Value	Model
Video	VATEX	text-to-video R@1	78.5	VALOR
Video	VATEX	text-to-video R@10	98.7	VALOR
Video	VATEX	text-to-video R@5	97.1	VALOR
Video	ActivityNet	text-to-video R@1	70.1	VALOR
Video	ActivityNet	text-to-video R@10	95.3	VALOR
Video	ActivityNet	text-to-video R@5	90.8	VALOR
Video	DiDeMo	text-to-video R@1	61.5	VALOR
Video	DiDeMo	text-to-video R@10	90.4	VALOR
Video	DiDeMo	text-to-video R@5	85.3	VALOR
Video	MSR-VTT	text-to-video R@1	59.9	VALOR
Video	MSR-VTT	text-to-video R@10	89.6	VALOR
Video	MSR-VTT	text-to-video R@5	83.5	VALOR
Video	LSMDC	text-to-video R@1	34.2	VALOR
Video	LSMDC	text-to-video R@10	64.1	VALOR
Video	LSMDC	text-to-video R@5	56	VALOR
Visual Question Answering (VQA)	MSVD-QA	Accuracy	0.6	VALOR
Visual Question Answering (VQA)	VQA v2 test-dev	Accuracy	78.46	VALOR
Visual Question Answering (VQA)	VQA v2 test-std	overall	78.62	VALOR
Video Question Answering	ActivityNet-QA	Accuracy	48.6	VALOR
Video Question Answering	MSRVTT-QA	Accuracy	49.2	VALOR
Image Captioning	COCO Captions	CIDER	152.5	VALOR
Image Captioning	COCO Captions	SPICE	25.7	VALOR
Video Captioning	MSR-VTT	BLEU-4	54.4	VALOR
Video Captioning	MSR-VTT	CIDEr	74	VALOR
Video Captioning	MSR-VTT	METEOR	32.9	VALOR
Video Captioning	MSR-VTT	ROUGE-L	68	VALOR
Video Captioning	VATEX	BLEU-4	45.6	VALOR
Video Captioning	VATEX	CIDEr	95.8	VALOR
Video Captioning	VATEX	METEOR	29.4	VALOR
Video Captioning	VATEX	ROUGE-L	57.4	VALOR
Video Captioning	MSVD	BLEU-4	80.7	VALOR
Video Captioning	MSVD	CIDEr	178.5	VALOR
Video Captioning	MSVD	METEOR	51	VALOR
Video Captioning	MSVD	ROUGE-L	87.9	VALOR
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@1	61.4	VALOR
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@10	90.9	VALOR
Image Retrieval with Multi-Modal Query	COCO 2014	Text-to-image R@5	84.4	VALOR
Video Retrieval	VATEX	text-to-video R@1	78.5	VALOR
Video Retrieval	VATEX	text-to-video R@10	98.7	VALOR
Video Retrieval	VATEX	text-to-video R@5	97.1	VALOR
Video Retrieval	ActivityNet	text-to-video R@1	70.1	VALOR
Video Retrieval	ActivityNet	text-to-video R@10	95.3	VALOR
Video Retrieval	ActivityNet	text-to-video R@5	90.8	VALOR
Video Retrieval	DiDeMo	text-to-video R@1	61.5	VALOR
Video Retrieval	DiDeMo	text-to-video R@10	90.4	VALOR
Video Retrieval	DiDeMo	text-to-video R@5	85.3	VALOR
Video Retrieval	MSR-VTT	text-to-video R@1	59.9	VALOR
Video Retrieval	MSR-VTT	text-to-video R@10	89.6	VALOR
Video Retrieval	MSR-VTT	text-to-video R@5	83.5	VALOR
Video Retrieval	LSMDC	text-to-video R@1	34.2	VALOR
Video Retrieval	LSMDC	text-to-video R@10	64.1	VALOR
Video Retrieval	LSMDC	text-to-video R@5	56	VALOR
Audio captioning	Clotho	BLEU-4	16.2	VALOR
Audio captioning	Clotho	CIDEr	0.423	VALOR
Audio captioning	Clotho	METEOR	17.4	VALOR
Audio captioning	Clotho	ROUGE-L	38.2	VALOR
Audio captioning	AudioCaps	BLEU-4	0.27	VALOR
Audio captioning	AudioCaps	CIDEr	0.741	VALOR
Audio captioning	AudioCaps	METEOR	0.231	VALOR
Audio captioning	AudioCaps	ROUGE-L	0.494	VALOR
Cross-Modal Information Retrieval	COCO 2014	Text-to-image R@1	61.4	VALOR
Cross-Modal Information Retrieval	COCO 2014	Text-to-image R@10	90.9	VALOR
Cross-Modal Information Retrieval	COCO 2014	Text-to-image R@5	84.4	VALOR
Cross-Modal Retrieval	COCO 2014	Text-to-image R@1	61.4	VALOR
Cross-Modal Retrieval	COCO 2014	Text-to-image R@10	90.9	VALOR
Cross-Modal Retrieval	COCO 2014	Text-to-image R@5	84.4	VALOR
Text to Audio Retrieval	AudioCaps	R@1	40.1	VALOR
Text to Audio Retrieval	AudioCaps	R@10	83.1	VALOR
Text to Audio Retrieval	AudioCaps	R@5	73.9	VALOR
Text to Audio Retrieval	Clotho	R@1	17.5	VALOR
Text to Audio Retrieval	Clotho	R@10	55.3	VALOR
Text to Audio Retrieval	Clotho	R@5	42.7	VALOR
Audio-visual Question Answering	MUSIC-AVQA	Acc	78.9	VALOR

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

Abstract

Results

Related Papers

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

Abstract

Results

Related Papers