REPAIR: Rank Correlation and Noisy Pair Half-replacing with Memory for Noisy Correspondence

Ruochen Zheng, Jiahao Hong, Changxin Gao, Nong Sang

2024-03-13Cross-modal retrieval with noisy correspondence

Abstract

The presence of noise in acquired data invariably leads to performance degradation in cross-modal matching. Unfortunately, obtaining precise annotations in the multimodal field is expensive, which has prompted some methods to tackle the mismatched data pair issue in cross-modal matching contexts, termed as noisy correspondence. However, most of these existing noisy correspondence methods exhibit the following limitations: a) the problem of self-reinforcing error accumulation, and b) improper handling of noisy data pair. To tackle the two problems, we propose a generalized framework termed as Rank corrElation and noisy Pair hAlf-replacing wIth memoRy (REPAIR), which benefits from maintaining a memory bank for features of matched pairs. Specifically, we calculate the distances between the features in the memory bank and those of the target pair for each respective modality, and use the rank correlation of these two sets of distances to estimate the soft correspondence label of the target pair. Estimating soft correspondence based on memory bank features rather than using a similarity network can avoid the accumulation of errors due to incorrect network identifications. For pairs that are completely mismatched, REPAIR searches the memory bank for the most matching feature to replace one feature of one modality, instead of using the original pair directly or merely discarding the mismatched pair. We conduct experiments on three cross-modal datasets, i.e., Flickr30K, MSCOCO, and CC152K, proving the effectiveness and robustness of our REPAIR on synthetic and real-world noise.

Results

Task	Dataset	Metric	Value	Model
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@1	78.3	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@10	98.3	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@5	96.8	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	R-Sum	521.2	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@1	62.5	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@10	95.5	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@5	89.8	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@1	40.5	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@10	76.1	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@5	67.7	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	R-Sum	369.2	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@1	40.3	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@10	76.4	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@5	68.2	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@1	79.2	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@10	96.9	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@5	95	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	R-Sum	504.4	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@1	59.4	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@10	89.5	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@5	84.4	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@1	78.3	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@10	98.3	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@5	96.8	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	R-Sum	521.2	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@1	62.5	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@10	95.5	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@5	89.8	REPAIR
Cross-Modal Information Retrieval	CC152K	Image-to-text R@1	40.5	REPAIR
Cross-Modal Information Retrieval	CC152K	Image-to-text R@10	76.1	REPAIR
Cross-Modal Information Retrieval	CC152K	Image-to-text R@5	67.7	REPAIR
Cross-Modal Information Retrieval	CC152K	R-Sum	369.2	REPAIR
Cross-Modal Information Retrieval	CC152K	Text-to-image R@1	40.3	REPAIR
Cross-Modal Information Retrieval	CC152K	Text-to-image R@10	76.4	REPAIR
Cross-Modal Information Retrieval	CC152K	Text-to-image R@5	68.2	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@1	79.2	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@10	96.9	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@5	95	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	R-Sum	504.4	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@1	59.4	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@10	89.5	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@5	84.4	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@1	78.3	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@10	98.3	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@5	96.8	REPAIR
Cross-Modal Retrieval	COCO-Noisy	R-Sum	521.2	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@1	62.5	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@10	95.5	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@5	89.8	REPAIR
Cross-Modal Retrieval	CC152K	Image-to-text R@1	40.5	REPAIR
Cross-Modal Retrieval	CC152K	Image-to-text R@10	76.1	REPAIR
Cross-Modal Retrieval	CC152K	Image-to-text R@5	67.7	REPAIR
Cross-Modal Retrieval	CC152K	R-Sum	369.2	REPAIR
Cross-Modal Retrieval	CC152K	Text-to-image R@1	40.3	REPAIR
Cross-Modal Retrieval	CC152K	Text-to-image R@10	76.4	REPAIR
Cross-Modal Retrieval	CC152K	Text-to-image R@5	68.2	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@1	79.2	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@10	96.9	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@5	95	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	R-Sum	504.4	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@1	59.4	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@10	89.5	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@5	84.4	REPAIR

Abstract

Results

Task	Dataset	Metric	Value	Model
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@1	78.3	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@10	98.3	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@5	96.8	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	R-Sum	521.2	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@1	62.5	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@10	95.5	REPAIR
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@5	89.8	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@1	40.5	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@10	76.1	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@5	67.7	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	R-Sum	369.2	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@1	40.3	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@10	76.4	REPAIR
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@5	68.2	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@1	79.2	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@10	96.9	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@5	95	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	R-Sum	504.4	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@1	59.4	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@10	89.5	REPAIR
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@5	84.4	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@1	78.3	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@10	98.3	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@5	96.8	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	R-Sum	521.2	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@1	62.5	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@10	95.5	REPAIR
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@5	89.8	REPAIR
Cross-Modal Information Retrieval	CC152K	Image-to-text R@1	40.5	REPAIR
Cross-Modal Information Retrieval	CC152K	Image-to-text R@10	76.1	REPAIR
Cross-Modal Information Retrieval	CC152K	Image-to-text R@5	67.7	REPAIR
Cross-Modal Information Retrieval	CC152K	R-Sum	369.2	REPAIR
Cross-Modal Information Retrieval	CC152K	Text-to-image R@1	40.3	REPAIR
Cross-Modal Information Retrieval	CC152K	Text-to-image R@10	76.4	REPAIR
Cross-Modal Information Retrieval	CC152K	Text-to-image R@5	68.2	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@1	79.2	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@10	96.9	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@5	95	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	R-Sum	504.4	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@1	59.4	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@10	89.5	REPAIR
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@5	84.4	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@1	78.3	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@10	98.3	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@5	96.8	REPAIR
Cross-Modal Retrieval	COCO-Noisy	R-Sum	521.2	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@1	62.5	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@10	95.5	REPAIR
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@5	89.8	REPAIR
Cross-Modal Retrieval	CC152K	Image-to-text R@1	40.5	REPAIR
Cross-Modal Retrieval	CC152K	Image-to-text R@10	76.1	REPAIR
Cross-Modal Retrieval	CC152K	Image-to-text R@5	67.7	REPAIR
Cross-Modal Retrieval	CC152K	R-Sum	369.2	REPAIR
Cross-Modal Retrieval	CC152K	Text-to-image R@1	40.3	REPAIR
Cross-Modal Retrieval	CC152K	Text-to-image R@10	76.4	REPAIR
Cross-Modal Retrieval	CC152K	Text-to-image R@5	68.2	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@1	79.2	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@10	96.9	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@5	95	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	R-Sum	504.4	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@1	59.4	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@10	89.5	REPAIR
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@5	84.4	REPAIR

REPAIR: Rank Correlation and Noisy Pair Half-replacing with Memory for Noisy Correspondence

Abstract

Results

Related Papers

REPAIR: Rank Correlation and Noisy Pair Half-replacing with Memory for Noisy Correspondence

Abstract

Results

Related Papers