Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

Peng Jin, Jinfa Huang, Fenglin Liu, Xian Wu, Shen Ge, Guoli Song, David A. Clifton, Jie Chen

2022-11-21Video Retrieval Representation Learning Video Question Answering Video Captioning Contrastive Learning Retrieval Visual Question Answering (VQA)

Paper PDF Code Code Code(official)Code

Abstract

Most video-and-language representation learning approaches employ contrastive learning, e.g., CLIP, to project the video and text features into a common latent space according to the semantic similarities of text-video pairs. However, such learned shared latent spaces are not often optimal, and the modality gap between visual and textual representation can not be fully eliminated. In this paper, we propose Expectation-Maximization Contrastive Learning (EMCL) to learn compact video-and-language representations. Specifically, we use the Expectation-Maximization algorithm to find a compact set of bases for the latent space, where the features could be concisely represented as the linear combinations of these bases. Such feature decomposition of video-and-language representations reduces the rank of the latent space, resulting in increased representing power for the semantics. Extensive experiments on three benchmark text-video retrieval datasets prove that our EMCL can learn more discriminative video-and-language representations than previous methods, and significantly outperform previous state-of-the-art methods across all metrics. More encouragingly, the proposed method can be applied to boost the performance of existing approaches either as a jointly training layer or an out-of-the-box inference module with no extra training, making it easy to be incorporated into any existing methods.

Results

Task	Dataset	Metric	Value	Model
Video	MSR-VTT-1kA	text-to-video Mean Rank	1	EMCL-Net++
Video	MSR-VTT-1kA	text-to-video R@1	51.6	EMCL-Net++
Video	MSR-VTT-1kA	text-to-video R@10	85.3	EMCL-Net++
Video	MSR-VTT-1kA	text-to-video R@5	78.1	EMCL-Net++
Video	MSR-VTT-1kA	video-to-text Mean Rank	1	EMCL-Net++
Video	MSR-VTT-1kA	video-to-text R@1	51.8	EMCL-Net++
Video	MSR-VTT-1kA	video-to-text R@10	88	EMCL-Net++
Video	MSR-VTT-1kA	video-to-text R@5	80.2	EMCL-Net++
Video	MSR-VTT-1kA	text-to-video Mean Rank	2	EMCL-Net
Video	MSR-VTT-1kA	text-to-video R@1	46.8	EMCL-Net
Video	MSR-VTT-1kA	text-to-video R@10	83.1	EMCL-Net
Video	MSR-VTT-1kA	text-to-video R@5	73.1	EMCL-Net
Video	MSR-VTT-1kA	video-to-text Mean Rank	2	EMCL-Net
Video	MSR-VTT-1kA	video-to-text R@1	46.5	EMCL-Net
Video	MSR-VTT-1kA	video-to-text R@10	83.5	EMCL-Net
Video	MSR-VTT-1kA	video-to-text R@5	73.5	EMCL-Net
Video	ActivityNet	text-to-video Mean Rank	1	EMCL-Net++
Video	ActivityNet	text-to-video R@1	50.6	EMCL-Net++
Video	ActivityNet	text-to-video R@5	78.7	EMCL-Net++
Video	ActivityNet	text-to-video R@50	98.1	EMCL-Net++
Video	ActivityNet	video-to-text Mean Rank	1	EMCL-Net++
Video	ActivityNet	video-to-text R@1	50.6	EMCL-Net++
Video	ActivityNet	video-to-text R@5	78.9	EMCL-Net++
Video	ActivityNet	video-to-text R@50	98.4	EMCL-Net++
Video	ActivityNet	text-to-video Mean Rank	2	EMCL-Net
Video	ActivityNet	text-to-video R@1	41.2	EMCL-Net
Video	ActivityNet	text-to-video R@5	72.7	EMCL-Net
Video	ActivityNet	video-to-text Mean Rank	2	EMCL-Net
Video	ActivityNet	video-to-text R@1	42.7	EMCL-Net
Video	ActivityNet	video-to-text R@5	74	EMCL-Net
Video	ActivityNet	video-to-text R@50	98.3	EMCL-Net
Video	LSMDC	text-to-video R@1	25.9	EMCL-Net++
Video	LSMDC	text-to-video R@5	46.4	EMCL-Net++
Video	LSMDC	video-to-text Mean Rank	8	EMCL-Net++
Video	LSMDC	video-to-text R@1	26.7	EMCL-Net++
Video	LSMDC	video-to-text R@10	54.4	EMCL-Net++
Video	LSMDC	video-to-text R@5	44.7	EMCL-Net++
Video	LSMDC	text-to-video R@1	23.9	EMCL-Net
Video	LSMDC	text-to-video R@10	50.9	EMCL-Net
Video	LSMDC	text-to-video R@5	42.4	EMCL-Net
Video	LSMDC	video-to-text Mean Rank	12	EMCL-Net
Video	LSMDC	video-to-text R@1	22.2	EMCL-Net
Video	LSMDC	video-to-text R@10	49.2	EMCL-Net
Video	LSMDC	video-to-text R@5	40.6	EMCL-Net
Video	LSMDC	text-to-video Mean Rank	8	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)
Video	LSMDC	text-to-video R@10	53.7	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)
Visual Question Answering (VQA)	MSRVTT-QA	Accuracy	0.458	EMCL-Net
Video Question Answering	MSRVTT-QA	Accuracy	45.8	EMCL-Net
Video Captioning	MSR-VTT	BLEU-4	45.3	EMCL-Net
Video Captioning	MSR-VTT	CIDEr	54.6	EMCL-Net
Video Captioning	MSR-VTT	METEOR	30.2	EMCL-Net
Video Captioning	MSR-VTT	ROUGE-L	63.2	EMCL-Net
Video Retrieval	MSR-VTT-1kA	text-to-video Mean Rank	1	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	text-to-video R@1	51.6	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	text-to-video R@10	85.3	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	text-to-video R@5	78.1	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	video-to-text Mean Rank	1	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	video-to-text R@1	51.8	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	video-to-text R@10	88	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	video-to-text R@5	80.2	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	text-to-video Mean Rank	2	EMCL-Net
Video Retrieval	MSR-VTT-1kA	text-to-video R@1	46.8	EMCL-Net
Video Retrieval	MSR-VTT-1kA	text-to-video R@10	83.1	EMCL-Net
Video Retrieval	MSR-VTT-1kA	text-to-video R@5	73.1	EMCL-Net
Video Retrieval	MSR-VTT-1kA	video-to-text Mean Rank	2	EMCL-Net
Video Retrieval	MSR-VTT-1kA	video-to-text R@1	46.5	EMCL-Net
Video Retrieval	MSR-VTT-1kA	video-to-text R@10	83.5	EMCL-Net
Video Retrieval	MSR-VTT-1kA	video-to-text R@5	73.5	EMCL-Net
Video Retrieval	ActivityNet	text-to-video Mean Rank	1	EMCL-Net++
Video Retrieval	ActivityNet	text-to-video R@1	50.6	EMCL-Net++
Video Retrieval	ActivityNet	text-to-video R@5	78.7	EMCL-Net++
Video Retrieval	ActivityNet	text-to-video R@50	98.1	EMCL-Net++
Video Retrieval	ActivityNet	video-to-text Mean Rank	1	EMCL-Net++
Video Retrieval	ActivityNet	video-to-text R@1	50.6	EMCL-Net++
Video Retrieval	ActivityNet	video-to-text R@5	78.9	EMCL-Net++
Video Retrieval	ActivityNet	video-to-text R@50	98.4	EMCL-Net++
Video Retrieval	ActivityNet	text-to-video Mean Rank	2	EMCL-Net
Video Retrieval	ActivityNet	text-to-video R@1	41.2	EMCL-Net
Video Retrieval	ActivityNet	text-to-video R@5	72.7	EMCL-Net
Video Retrieval	ActivityNet	video-to-text Mean Rank	2	EMCL-Net
Video Retrieval	ActivityNet	video-to-text R@1	42.7	EMCL-Net
Video Retrieval	ActivityNet	video-to-text R@5	74	EMCL-Net
Video Retrieval	ActivityNet	video-to-text R@50	98.3	EMCL-Net
Video Retrieval	LSMDC	text-to-video R@1	25.9	EMCL-Net++
Video Retrieval	LSMDC	text-to-video R@5	46.4	EMCL-Net++
Video Retrieval	LSMDC	video-to-text Mean Rank	8	EMCL-Net++
Video Retrieval	LSMDC	video-to-text R@1	26.7	EMCL-Net++
Video Retrieval	LSMDC	video-to-text R@10	54.4	EMCL-Net++
Video Retrieval	LSMDC	video-to-text R@5	44.7	EMCL-Net++
Video Retrieval	LSMDC	text-to-video R@1	23.9	EMCL-Net
Video Retrieval	LSMDC	text-to-video R@10	50.9	EMCL-Net
Video Retrieval	LSMDC	text-to-video R@5	42.4	EMCL-Net
Video Retrieval	LSMDC	video-to-text Mean Rank	12	EMCL-Net
Video Retrieval	LSMDC	video-to-text R@1	22.2	EMCL-Net
Video Retrieval	LSMDC	video-to-text R@10	49.2	EMCL-Net
Video Retrieval	LSMDC	video-to-text R@5	40.6	EMCL-Net
Video Retrieval	LSMDC	text-to-video Mean Rank	8	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)
Video Retrieval	LSMDC	text-to-video R@10	53.7	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	MSR-VTT-1kA	text-to-video Mean Rank	1	EMCL-Net++
Video	MSR-VTT-1kA	text-to-video R@1	51.6	EMCL-Net++
Video	MSR-VTT-1kA	text-to-video R@10	85.3	EMCL-Net++
Video	MSR-VTT-1kA	text-to-video R@5	78.1	EMCL-Net++
Video	MSR-VTT-1kA	video-to-text Mean Rank	1	EMCL-Net++
Video	MSR-VTT-1kA	video-to-text R@1	51.8	EMCL-Net++
Video	MSR-VTT-1kA	video-to-text R@10	88	EMCL-Net++
Video	MSR-VTT-1kA	video-to-text R@5	80.2	EMCL-Net++
Video	MSR-VTT-1kA	text-to-video Mean Rank	2	EMCL-Net
Video	MSR-VTT-1kA	text-to-video R@1	46.8	EMCL-Net
Video	MSR-VTT-1kA	text-to-video R@10	83.1	EMCL-Net
Video	MSR-VTT-1kA	text-to-video R@5	73.1	EMCL-Net
Video	MSR-VTT-1kA	video-to-text Mean Rank	2	EMCL-Net
Video	MSR-VTT-1kA	video-to-text R@1	46.5	EMCL-Net
Video	MSR-VTT-1kA	video-to-text R@10	83.5	EMCL-Net
Video	MSR-VTT-1kA	video-to-text R@5	73.5	EMCL-Net
Video	ActivityNet	text-to-video Mean Rank	1	EMCL-Net++
Video	ActivityNet	text-to-video R@1	50.6	EMCL-Net++
Video	ActivityNet	text-to-video R@5	78.7	EMCL-Net++
Video	ActivityNet	text-to-video R@50	98.1	EMCL-Net++
Video	ActivityNet	video-to-text Mean Rank	1	EMCL-Net++
Video	ActivityNet	video-to-text R@1	50.6	EMCL-Net++
Video	ActivityNet	video-to-text R@5	78.9	EMCL-Net++
Video	ActivityNet	video-to-text R@50	98.4	EMCL-Net++
Video	ActivityNet	text-to-video Mean Rank	2	EMCL-Net
Video	ActivityNet	text-to-video R@1	41.2	EMCL-Net
Video	ActivityNet	text-to-video R@5	72.7	EMCL-Net
Video	ActivityNet	video-to-text Mean Rank	2	EMCL-Net
Video	ActivityNet	video-to-text R@1	42.7	EMCL-Net
Video	ActivityNet	video-to-text R@5	74	EMCL-Net
Video	ActivityNet	video-to-text R@50	98.3	EMCL-Net
Video	LSMDC	text-to-video R@1	25.9	EMCL-Net++
Video	LSMDC	text-to-video R@5	46.4	EMCL-Net++
Video	LSMDC	video-to-text Mean Rank	8	EMCL-Net++
Video	LSMDC	video-to-text R@1	26.7	EMCL-Net++
Video	LSMDC	video-to-text R@10	54.4	EMCL-Net++
Video	LSMDC	video-to-text R@5	44.7	EMCL-Net++
Video	LSMDC	text-to-video R@1	23.9	EMCL-Net
Video	LSMDC	text-to-video R@10	50.9	EMCL-Net
Video	LSMDC	text-to-video R@5	42.4	EMCL-Net
Video	LSMDC	video-to-text Mean Rank	12	EMCL-Net
Video	LSMDC	video-to-text R@1	22.2	EMCL-Net
Video	LSMDC	video-to-text R@10	49.2	EMCL-Net
Video	LSMDC	video-to-text R@5	40.6	EMCL-Net
Video	LSMDC	text-to-video Mean Rank	8	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)
Video	LSMDC	text-to-video R@10	53.7	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)
Visual Question Answering (VQA)	MSRVTT-QA	Accuracy	0.458	EMCL-Net
Video Question Answering	MSRVTT-QA	Accuracy	45.8	EMCL-Net
Video Captioning	MSR-VTT	BLEU-4	45.3	EMCL-Net
Video Captioning	MSR-VTT	CIDEr	54.6	EMCL-Net
Video Captioning	MSR-VTT	METEOR	30.2	EMCL-Net
Video Captioning	MSR-VTT	ROUGE-L	63.2	EMCL-Net
Video Retrieval	MSR-VTT-1kA	text-to-video Mean Rank	1	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	text-to-video R@1	51.6	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	text-to-video R@10	85.3	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	text-to-video R@5	78.1	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	video-to-text Mean Rank	1	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	video-to-text R@1	51.8	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	video-to-text R@10	88	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	video-to-text R@5	80.2	EMCL-Net++
Video Retrieval	MSR-VTT-1kA	text-to-video Mean Rank	2	EMCL-Net
Video Retrieval	MSR-VTT-1kA	text-to-video R@1	46.8	EMCL-Net
Video Retrieval	MSR-VTT-1kA	text-to-video R@10	83.1	EMCL-Net
Video Retrieval	MSR-VTT-1kA	text-to-video R@5	73.1	EMCL-Net
Video Retrieval	MSR-VTT-1kA	video-to-text Mean Rank	2	EMCL-Net
Video Retrieval	MSR-VTT-1kA	video-to-text R@1	46.5	EMCL-Net
Video Retrieval	MSR-VTT-1kA	video-to-text R@10	83.5	EMCL-Net
Video Retrieval	MSR-VTT-1kA	video-to-text R@5	73.5	EMCL-Net
Video Retrieval	ActivityNet	text-to-video Mean Rank	1	EMCL-Net++
Video Retrieval	ActivityNet	text-to-video R@1	50.6	EMCL-Net++
Video Retrieval	ActivityNet	text-to-video R@5	78.7	EMCL-Net++
Video Retrieval	ActivityNet	text-to-video R@50	98.1	EMCL-Net++
Video Retrieval	ActivityNet	video-to-text Mean Rank	1	EMCL-Net++
Video Retrieval	ActivityNet	video-to-text R@1	50.6	EMCL-Net++
Video Retrieval	ActivityNet	video-to-text R@5	78.9	EMCL-Net++
Video Retrieval	ActivityNet	video-to-text R@50	98.4	EMCL-Net++
Video Retrieval	ActivityNet	text-to-video Mean Rank	2	EMCL-Net
Video Retrieval	ActivityNet	text-to-video R@1	41.2	EMCL-Net
Video Retrieval	ActivityNet	text-to-video R@5	72.7	EMCL-Net
Video Retrieval	ActivityNet	video-to-text Mean Rank	2	EMCL-Net
Video Retrieval	ActivityNet	video-to-text R@1	42.7	EMCL-Net
Video Retrieval	ActivityNet	video-to-text R@5	74	EMCL-Net
Video Retrieval	ActivityNet	video-to-text R@50	98.3	EMCL-Net
Video Retrieval	LSMDC	text-to-video R@1	25.9	EMCL-Net++
Video Retrieval	LSMDC	text-to-video R@5	46.4	EMCL-Net++
Video Retrieval	LSMDC	video-to-text Mean Rank	8	EMCL-Net++
Video Retrieval	LSMDC	video-to-text R@1	26.7	EMCL-Net++
Video Retrieval	LSMDC	video-to-text R@10	54.4	EMCL-Net++
Video Retrieval	LSMDC	video-to-text R@5	44.7	EMCL-Net++
Video Retrieval	LSMDC	text-to-video R@1	23.9	EMCL-Net
Video Retrieval	LSMDC	text-to-video R@10	50.9	EMCL-Net
Video Retrieval	LSMDC	text-to-video R@5	42.4	EMCL-Net
Video Retrieval	LSMDC	video-to-text Mean Rank	12	EMCL-Net
Video Retrieval	LSMDC	video-to-text R@1	22.2	EMCL-Net
Video Retrieval	LSMDC	video-to-text R@10	49.2	EMCL-Net
Video Retrieval	LSMDC	video-to-text R@5	40.6	EMCL-Net
Video Retrieval	LSMDC	text-to-video Mean Rank	8	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)
Video Retrieval	LSMDC	text-to-video R@10	53.7	EMCL-Net (Ours)++ LSMDC Rohrbach et al. (2015)

Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

Abstract

Results

Related Papers

Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

Abstract

Results

Related Papers