LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, Hongfa Wang, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, Wancai Zhang, Zhifeng Li, Wei Liu, Li Yuan

2023-10-03Audio Classification Video-Text Retrieval Zero-Shot Video Retrieval Text Retrieval Multimodal Deep Learning Zero-Shot Environment Sound Classification Scene Classification (unified classes)Zero-Shot Action Recognition Contrastive Learning Zero-shot Scene Classification (unified classes)Zero-shot Text Retrieval Zero-shot Classification (unified classes)Temporal Relation Extraction Zero-shot Text to Audio Retrieval Zero-shot Audio Classification

Paper PDF Code Code Code Code(official)Code Code

Abstract

The video-language (VL) pretraining has achieved remarkable improvement in multiple downstream tasks. However, the current VL pretraining framework is hard to extend to multiple modalities (N modalities, N>=3) beyond vision and language. We thus propose LanguageBind, taking the language as the bind across different modalities because the language modality is well-explored and contains rich semantics. Specifically, we freeze the language encoder acquired by VL pretraining, then train encoders for other modalities with contrastive learning. As a result, all modalities are mapped to a shared feature space, implementing multi-modal semantic alignment. While LanguageBind ensures that we can extend VL modalities to N modalities, we also need a high-quality dataset with alignment data pairs centered on language. We thus propose VIDAL-10M with Video, Infrared, Depth, Audio and their corresponding Language, naming as VIDAL-10M. In our VIDAL-10M, all videos are from short video platforms with complete semantics rather than truncated segments from long videos, and all the video, depth, infrared, and audio modalities are aligned to their textual descriptions. LanguageBind has achieved superior performance on a wide range of 15 benchmarks covering video, audio, depth, and infrared. Moreover, multiple experiments have provided evidence for the effectiveness of LanguageBind in achieving indirect alignment and complementarity among diverse modalities. Code address: https://github.com/PKU-YuanGroup/LanguageBind

Results

Task	Dataset	Metric	Value	Model
Relation Extraction	Vinoground	Group Score	1.2	LanguageBind
Relation Extraction	Vinoground	Text Score	10.6	LanguageBind
Relation Extraction	Vinoground	Video Score	5	LanguageBind
Zero-Shot Action Recognition	Kinetics	Top-1 Accuracy	64.1	LanguageBind
Zero-Shot Action Recognition	Kinetics	Top-5 Accuracy	85.7	LanguageBind
Temporal Relation Extraction	Vinoground	Group Score	1.2	LanguageBind
Temporal Relation Extraction	Vinoground	Text Score	10.6	LanguageBind
Temporal Relation Extraction	Vinoground	Video Score	5	LanguageBind
Zero-Shot Video Retrieval	MSR-VTT	text-to-video Median Rank	2	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@1	44.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@10	78.7	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@5	70	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text Median Rank	2	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@1	40.9	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@10	75.7	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@5	66.4	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video Median Rank	2	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@1	42.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@10	76	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@5	67.5	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text Median Rank	3	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@1	38.3	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@10	77.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@5	65.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video Median Rank	1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@1	54.1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@10	88.1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@5	81.1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	video-to-text Median Rank	1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@1	69.7	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@10	97.9	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@5	91.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video Median Rank	1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@1	53.9	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@10	87.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@5	80.4	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	video-to-text Median Rank	1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@1	72	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@10	96.3	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@5	91.4	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video Median Rank	2	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@1	39.9	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@10	74.6	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@5	66.1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@1	39.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@10	76.2	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@5	67.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video Median Rank	2	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@1	39.7	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@10	73.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@5	65.5	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@1	38.4	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@10	77.9	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@5	66.6	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@1	41	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@10	80	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@5	68.4	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@1	39.1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@10	81.1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@5	69.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@1	38.4	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@10	77.9	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@5	66.6	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@1	35.7	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@10	77.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@5	65.8	LanguageBind(ViT-L/14)

Abstract

Results

Task	Dataset	Metric	Value	Model
Relation Extraction	Vinoground	Group Score	1.2	LanguageBind
Relation Extraction	Vinoground	Text Score	10.6	LanguageBind
Relation Extraction	Vinoground	Video Score	5	LanguageBind
Zero-Shot Action Recognition	Kinetics	Top-1 Accuracy	64.1	LanguageBind
Zero-Shot Action Recognition	Kinetics	Top-5 Accuracy	85.7	LanguageBind
Temporal Relation Extraction	Vinoground	Group Score	1.2	LanguageBind
Temporal Relation Extraction	Vinoground	Text Score	10.6	LanguageBind
Temporal Relation Extraction	Vinoground	Video Score	5	LanguageBind
Zero-Shot Video Retrieval	MSR-VTT	text-to-video Median Rank	2	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@1	44.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@10	78.7	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@5	70	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text Median Rank	2	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@1	40.9	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@10	75.7	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@5	66.4	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video Median Rank	2	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@1	42.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@10	76	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	text-to-video R@5	67.5	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text Median Rank	3	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@1	38.3	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@10	77.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSR-VTT	video-to-text R@5	65.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video Median Rank	1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@1	54.1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@10	88.1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@5	81.1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	video-to-text Median Rank	1	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@1	69.7	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@10	97.9	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@5	91.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	MSVD	text-to-video Median Rank	1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@1	53.9	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@10	87.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	text-to-video R@5	80.4	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	video-to-text Median Rank	1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@1	72	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@10	96.3	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	MSVD	video-to-text R@5	91.4	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video Median Rank	2	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@1	39.9	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@10	74.6	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@5	66.1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@1	39.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@10	76.2	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@5	67.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video Median Rank	2	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@1	39.7	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@10	73.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	text-to-video R@5	65.5	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@1	38.4	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@10	77.9	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	DiDeMo	video-to-text R@5	66.6	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@1	41	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@10	80	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@5	68.4	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@1	39.1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@10	81.1	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@5	69.8	LanguageBind(ViT-H/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@1	38.4	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@10	77.9	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	text-to-video R@5	66.6	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@1	35.7	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@10	77.8	LanguageBind(ViT-L/14)
Zero-Shot Video Retrieval	ActivityNet	video-to-text R@5	65.8	LanguageBind(ViT-L/14)

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

Abstract

Results

Related Papers

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

Abstract

Results

Related Papers