X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

Satya Krishna Gorti, Noel Vouitsis, Junwei Ma, Keyvan Golestan, Maksims Volkovs, Animesh Garg, Guangwei Yu

2022-03-28CVPR 2022 1Video Retrieval Video-Text Retrieval Text to Video Retrieval Retrieval

Abstract

In text-video retrieval, the objective is to learn a cross-modal similarity function between a text and a video that ranks relevant text-video pairs higher than irrelevant pairs. However, videos inherently express a much wider gamut of information than texts. Instead, texts often capture sub-regions of entire videos and are most semantically similar to certain frames within videos. Therefore, for a given text, a retrieval model should focus on the text's most semantically similar video sub-regions to make a more relevant comparison. Yet, most existing works aggregate entire videos without directly considering text. Common text-agnostic aggregations schemes include mean-pooling or self-attention over the frames, but these are likely to encode misleading visual information not described in the given text. To address this, we propose a cross-modal attention model called X-Pool that reasons between a text and the frames of a video. Our core mechanism is a scaled dot product attention for a text to attend to its most semantically similar frames. We then generate an aggregated video representation conditioned on the text's attention weights over the frames. We evaluate our method on three benchmark datasets of MSR-VTT, MSVD and LSMDC, achieving new state-of-the-art results by up to 12% in relative improvement in Recall@1. Our findings thereby highlight the importance of joint text-video reasoning to extract important visual cues according to text. Full code and demo can be found at: https://layer6ai-labs.github.io/xpool/

Results

Task	Dataset	Metric	Value	Model
Video	MSR-VTT-1kA	text-to-video Mean Rank	14.3	X-Pool
Video	MSR-VTT-1kA	text-to-video Median Rank	2	X-Pool
Video	MSR-VTT-1kA	text-to-video R@1	46.9	X-Pool
Video	MSR-VTT-1kA	text-to-video R@10	82.2	X-Pool
Video	MSR-VTT-1kA	text-to-video R@5	72.8	X-Pool
Video	MSR-VTT-1kA	video-to-text Mean Rank	9	X-Pool
Video	MSR-VTT-1kA	video-to-text Median Rank	2	X-Pool
Video	MSR-VTT-1kA	video-to-text R@1	44.4	X-Pool
Video	MSR-VTT-1kA	video-to-text R@10	84	X-Pool
Video	MSR-VTT-1kA	video-to-text R@5	73.3	X-Pool
Video	LSMDC	text-to-video Mean Rank	53.2	X-Pool
Video	LSMDC	text-to-video Median Rank	8	X-Pool
Video	LSMDC	text-to-video R@1	25.2	X-Pool
Video	LSMDC	text-to-video R@10	53.5	X-Pool
Video	LSMDC	text-to-video R@5	43.7	X-Pool
Video	LSMDC	video-to-text Mean Rank	47.4	X-Pool
Video	LSMDC	video-to-text Median Rank	10	X-Pool
Video	LSMDC	video-to-text R@1	22.7	X-Pool
Video	LSMDC	video-to-text R@10	51.2	X-Pool
Video	LSMDC	video-to-text R@5	42.6	X-Pool
Video	MSVD	text-to-video Mean Rank	9.3	X-Pool
Video	MSVD	text-to-video Median Rank	2	X-Pool
Video	MSVD	text-to-video R@1	47.2	X-Pool
Video	MSVD	text-to-video R@10	86	X-Pool
Video	MSVD	text-to-video R@5	77.4	X-Pool
Video	MSVD	video-to-text Mean Rank	3.3	X-Pool
Video	MSVD	video-to-text Median Rank	1	X-Pool
Video	MSVD	video-to-text R@1	66.4	X-Pool
Video	MSVD	video-to-text R@10	94.2	X-Pool
Video	MSVD	video-to-text R@5	90	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video Mean Rank	14.3	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video Median Rank	2	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video R@1	46.9	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video R@10	82.2	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video R@5	72.8	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text Mean Rank	9	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text Median Rank	2	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text R@1	44.4	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text R@10	84	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text R@5	73.3	X-Pool
Video Retrieval	LSMDC	text-to-video Mean Rank	53.2	X-Pool
Video Retrieval	LSMDC	text-to-video Median Rank	8	X-Pool
Video Retrieval	LSMDC	text-to-video R@1	25.2	X-Pool
Video Retrieval	LSMDC	text-to-video R@10	53.5	X-Pool
Video Retrieval	LSMDC	text-to-video R@5	43.7	X-Pool
Video Retrieval	LSMDC	video-to-text Mean Rank	47.4	X-Pool
Video Retrieval	LSMDC	video-to-text Median Rank	10	X-Pool
Video Retrieval	LSMDC	video-to-text R@1	22.7	X-Pool
Video Retrieval	LSMDC	video-to-text R@10	51.2	X-Pool
Video Retrieval	LSMDC	video-to-text R@5	42.6	X-Pool
Video Retrieval	MSVD	text-to-video Mean Rank	9.3	X-Pool
Video Retrieval	MSVD	text-to-video Median Rank	2	X-Pool
Video Retrieval	MSVD	text-to-video R@1	47.2	X-Pool
Video Retrieval	MSVD	text-to-video R@10	86	X-Pool
Video Retrieval	MSVD	text-to-video R@5	77.4	X-Pool
Video Retrieval	MSVD	video-to-text Mean Rank	3.3	X-Pool
Video Retrieval	MSVD	video-to-text Median Rank	1	X-Pool
Video Retrieval	MSVD	video-to-text R@1	66.4	X-Pool
Video Retrieval	MSVD	video-to-text R@10	94.2	X-Pool
Video Retrieval	MSVD	video-to-text R@5	90	X-Pool

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	MSR-VTT-1kA	text-to-video Mean Rank	14.3	X-Pool
Video	MSR-VTT-1kA	text-to-video Median Rank	2	X-Pool
Video	MSR-VTT-1kA	text-to-video R@1	46.9	X-Pool
Video	MSR-VTT-1kA	text-to-video R@10	82.2	X-Pool
Video	MSR-VTT-1kA	text-to-video R@5	72.8	X-Pool
Video	MSR-VTT-1kA	video-to-text Mean Rank	9	X-Pool
Video	MSR-VTT-1kA	video-to-text Median Rank	2	X-Pool
Video	MSR-VTT-1kA	video-to-text R@1	44.4	X-Pool
Video	MSR-VTT-1kA	video-to-text R@10	84	X-Pool
Video	MSR-VTT-1kA	video-to-text R@5	73.3	X-Pool
Video	LSMDC	text-to-video Mean Rank	53.2	X-Pool
Video	LSMDC	text-to-video Median Rank	8	X-Pool
Video	LSMDC	text-to-video R@1	25.2	X-Pool
Video	LSMDC	text-to-video R@10	53.5	X-Pool
Video	LSMDC	text-to-video R@5	43.7	X-Pool
Video	LSMDC	video-to-text Mean Rank	47.4	X-Pool
Video	LSMDC	video-to-text Median Rank	10	X-Pool
Video	LSMDC	video-to-text R@1	22.7	X-Pool
Video	LSMDC	video-to-text R@10	51.2	X-Pool
Video	LSMDC	video-to-text R@5	42.6	X-Pool
Video	MSVD	text-to-video Mean Rank	9.3	X-Pool
Video	MSVD	text-to-video Median Rank	2	X-Pool
Video	MSVD	text-to-video R@1	47.2	X-Pool
Video	MSVD	text-to-video R@10	86	X-Pool
Video	MSVD	text-to-video R@5	77.4	X-Pool
Video	MSVD	video-to-text Mean Rank	3.3	X-Pool
Video	MSVD	video-to-text Median Rank	1	X-Pool
Video	MSVD	video-to-text R@1	66.4	X-Pool
Video	MSVD	video-to-text R@10	94.2	X-Pool
Video	MSVD	video-to-text R@5	90	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video Mean Rank	14.3	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video Median Rank	2	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video R@1	46.9	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video R@10	82.2	X-Pool
Video Retrieval	MSR-VTT-1kA	text-to-video R@5	72.8	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text Mean Rank	9	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text Median Rank	2	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text R@1	44.4	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text R@10	84	X-Pool
Video Retrieval	MSR-VTT-1kA	video-to-text R@5	73.3	X-Pool
Video Retrieval	LSMDC	text-to-video Mean Rank	53.2	X-Pool
Video Retrieval	LSMDC	text-to-video Median Rank	8	X-Pool
Video Retrieval	LSMDC	text-to-video R@1	25.2	X-Pool
Video Retrieval	LSMDC	text-to-video R@10	53.5	X-Pool
Video Retrieval	LSMDC	text-to-video R@5	43.7	X-Pool
Video Retrieval	LSMDC	video-to-text Mean Rank	47.4	X-Pool
Video Retrieval	LSMDC	video-to-text Median Rank	10	X-Pool
Video Retrieval	LSMDC	video-to-text R@1	22.7	X-Pool
Video Retrieval	LSMDC	video-to-text R@10	51.2	X-Pool
Video Retrieval	LSMDC	video-to-text R@5	42.6	X-Pool
Video Retrieval	MSVD	text-to-video Mean Rank	9.3	X-Pool
Video Retrieval	MSVD	text-to-video Median Rank	2	X-Pool
Video Retrieval	MSVD	text-to-video R@1	47.2	X-Pool
Video Retrieval	MSVD	text-to-video R@10	86	X-Pool
Video Retrieval	MSVD	text-to-video R@5	77.4	X-Pool
Video Retrieval	MSVD	video-to-text Mean Rank	3.3	X-Pool
Video Retrieval	MSVD	video-to-text Median Rank	1	X-Pool
Video Retrieval	MSVD	video-to-text R@1	66.4	X-Pool
Video Retrieval	MSVD	video-to-text R@10	94.2	X-Pool
Video Retrieval	MSVD	video-to-text R@5	90	X-Pool

X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

Abstract

Results

Related Papers

X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

Abstract

Results

Related Papers