Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval

Hao Li, Jingkuan Song, Lianli Gao, Xiaosu Zhu, Heng Tao Shen

2023-09-29NeurIPS 2023 11Uncertainty Quantification Cross-Modal Retrieval Video Retrieval Image-text matching Video-Text Retrieval Text Retrieval Text to Video Retrieval Image-to-Text Retrieval Retrieval Video to Text Retrieval

Paper PDF Code(official)

Abstract

Cross-modal Retrieval methods build similarity relations between vision and language modalities by jointly learning a common representation space. However, the predictions are often unreliable due to the Aleatoric uncertainty, which is induced by low-quality data, e.g., corrupt images, fast-paced videos, and non-detailed texts. In this paper, we propose a novel Prototype-based Aleatoric Uncertainty Quantification (PAU) framework to provide trustworthy predictions by quantifying the uncertainty arisen from the inherent data ambiguity. Concretely, we first construct a set of various learnable prototypes for each modality to represent the entire semantics subspace. Then Dempster-Shafer Theory and Subjective Logic Theory are utilized to build an evidential theoretical framework by associating evidence with Dirichlet Distribution parameters. The PAU model induces accurate uncertainty and reliable predictions for cross-modal retrieval. Extensive experiments are performed on four major benchmark datasets of MSR-VTT, MSVD, DiDeMo, and MS-COCO, demonstrating the effectiveness of our method. The code is accessible at https://github.com/leolee99/PAU.

Results

Task	Dataset	Metric	Value	Model
Video	MSR-VTT-1kA	text-to-video Mean Rank	14	PAU
Video	MSR-VTT-1kA	text-to-video Median Rank	2	PAU
Video	MSR-VTT-1kA	text-to-video R@1	48.5	PAU
Video	MSR-VTT-1kA	text-to-video R@10	82.5	PAU
Video	MSR-VTT-1kA	text-to-video R@5	72.7	PAU
Video	MSR-VTT-1kA	video-to-text Mean Rank	9.7	PAU
Video	MSR-VTT-1kA	video-to-text Median Rank	2	PAU
Video	MSR-VTT-1kA	video-to-text R@1	48.3	PAU
Video	MSR-VTT-1kA	video-to-text R@10	83.2	PAU
Video	MSR-VTT-1kA	video-to-text R@5	73	PAU
Video	DiDeMo	text-to-video Mean Rank	12.9	PAU
Video	DiDeMo	text-to-video Median Rank	2	PAU
Video	DiDeMo	text-to-video R@1	48.6	PAU
Video	DiDeMo	text-to-video R@10	84.5	PAU
Video	DiDeMo	text-to-video R@5	76	PAU
Video	DiDeMo	video-to-text Mean Rank	9.8	PAU
Video	DiDeMo	video-to-text Median Rank	2	PAU
Video	DiDeMo	video-to-text R@1	48.1	PAU
Video	DiDeMo	video-to-text R@10	85.7	PAU
Video	DiDeMo	video-to-text R@5	74.2	PAU
Video	MSVD	text-to-video Mean Rank	9.6	PAU
Video	MSVD	text-to-video Median Rank	2	PAU
Video	MSVD	text-to-video R@1	47.3	PAU
Video	MSVD	text-to-video R@10	85.5	PAU
Video	MSVD	text-to-video R@5	77.4	PAU
Video	MSVD	video-to-text Mean Rank	2.4	PAU
Video	MSVD	video-to-text Median Rank	1	PAU
Video	MSVD	video-to-text R@1	68.9	PAU
Video	MSVD	video-to-text R@10	97.1	PAU
Video	MSVD	video-to-text R@5	93.1	PAU
Video Retrieval	MSR-VTT-1kA	text-to-video Mean Rank	14	PAU
Video Retrieval	MSR-VTT-1kA	text-to-video Median Rank	2	PAU
Video Retrieval	MSR-VTT-1kA	text-to-video R@1	48.5	PAU
Video Retrieval	MSR-VTT-1kA	text-to-video R@10	82.5	PAU
Video Retrieval	MSR-VTT-1kA	text-to-video R@5	72.7	PAU
Video Retrieval	MSR-VTT-1kA	video-to-text Mean Rank	9.7	PAU
Video Retrieval	MSR-VTT-1kA	video-to-text Median Rank	2	PAU
Video Retrieval	MSR-VTT-1kA	video-to-text R@1	48.3	PAU
Video Retrieval	MSR-VTT-1kA	video-to-text R@10	83.2	PAU
Video Retrieval	MSR-VTT-1kA	video-to-text R@5	73	PAU
Video Retrieval	DiDeMo	text-to-video Mean Rank	12.9	PAU
Video Retrieval	DiDeMo	text-to-video Median Rank	2	PAU
Video Retrieval	DiDeMo	text-to-video R@1	48.6	PAU
Video Retrieval	DiDeMo	text-to-video R@10	84.5	PAU
Video Retrieval	DiDeMo	text-to-video R@5	76	PAU
Video Retrieval	DiDeMo	video-to-text Mean Rank	9.8	PAU
Video Retrieval	DiDeMo	video-to-text Median Rank	2	PAU
Video Retrieval	DiDeMo	video-to-text R@1	48.1	PAU
Video Retrieval	DiDeMo	video-to-text R@10	85.7	PAU
Video Retrieval	DiDeMo	video-to-text R@5	74.2	PAU
Video Retrieval	MSVD	text-to-video Mean Rank	9.6	PAU
Video Retrieval	MSVD	text-to-video Median Rank	2	PAU
Video Retrieval	MSVD	text-to-video R@1	47.3	PAU
Video Retrieval	MSVD	text-to-video R@10	85.5	PAU
Video Retrieval	MSVD	text-to-video R@5	77.4	PAU
Video Retrieval	MSVD	video-to-text Mean Rank	2.4	PAU
Video Retrieval	MSVD	video-to-text Median Rank	1	PAU
Video Retrieval	MSVD	video-to-text R@1	68.9	PAU
Video Retrieval	MSVD	video-to-text R@10	97.1	PAU
Video Retrieval	MSVD	video-to-text R@5	93.1	PAU

Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval

Abstract

Results

Related Papers

Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval

Abstract

Results

Related Papers