Cross-modal Active Complementary Learning with Self-refining Correspondence

Yang Qin, Yuan Sun, Dezhong Peng, Joey Tianyi Zhou, Xi Peng, Peng Hu

2023-10-26NeurIPS 2023 11Cross-modal retrieval with noisy correspondence Image-text matching Text Matching

Abstract

Recently, image-text matching has attracted more and more attention from academia and industry, which is fundamental to understanding the latent correspondence across visual and textual modalities. However, most existing methods implicitly assume the training pairs are well-aligned while ignoring the ubiquitous annotation noise, a.k.a noisy correspondence (NC), thereby inevitably leading to a performance drop. Although some methods attempt to address such noise, they still face two challenging problems: excessive memorizing/overfitting and unreliable correction for NC, especially under high noise. To address the two problems, we propose a generalized Cross-modal Robust Complementary Learning framework (CRCL), which benefits from a novel Active Complementary Loss (ACL) and an efficient Self-refining Correspondence Correction (SCC) to improve the robustness of existing methods. Specifically, ACL exploits active and complementary learning losses to reduce the risk of providing erroneous supervision, leading to theoretically and experimentally demonstrated robustness against NC. SCC utilizes multiple self-refining processes with momentum correction to enlarge the receptive field for correcting correspondences, thereby alleviating error accumulation and achieving accurate and stable corrections. We carry out extensive experiments on three image-text benchmarks, i.e., Flickr30K, MS-COCO, and CC152K, to verify the superior robustness of our CRCL against synthetic and real-world noisy correspondences.

Results

Task	Dataset	Metric	Value	Model
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@1	79.6	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@10	98.7	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@5	96.1	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	R-Sum	525.6	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@1	64.7	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@10	95.9	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@5	90.6	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@1	41.8	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@10	76.5	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@5	67.4	CRCL
Image Retrieval with Multi-Modal Query	CC152K	R-Sum	373.7	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@1	41.6	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@10	78.4	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@5	68	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@1	77.9	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@10	98.3	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@5	95.4	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	R-Sum	507.8	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@1	60.9	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@10	90.6	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@5	84.7	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@1	79.6	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@10	98.7	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@5	96.1	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	R-Sum	525.6	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@1	64.7	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@10	95.9	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@5	90.6	CRCL
Cross-Modal Information Retrieval	CC152K	Image-to-text R@1	41.8	CRCL
Cross-Modal Information Retrieval	CC152K	Image-to-text R@10	76.5	CRCL
Cross-Modal Information Retrieval	CC152K	Image-to-text R@5	67.4	CRCL
Cross-Modal Information Retrieval	CC152K	R-Sum	373.7	CRCL
Cross-Modal Information Retrieval	CC152K	Text-to-image R@1	41.6	CRCL
Cross-Modal Information Retrieval	CC152K	Text-to-image R@10	78.4	CRCL
Cross-Modal Information Retrieval	CC152K	Text-to-image R@5	68	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@1	77.9	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@10	98.3	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@5	95.4	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	R-Sum	507.8	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@1	60.9	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@10	90.6	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@5	84.7	CRCL
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@1	79.6	CRCL
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@10	98.7	CRCL
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@5	96.1	CRCL
Cross-Modal Retrieval	COCO-Noisy	R-Sum	525.6	CRCL
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@1	64.7	CRCL
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@10	95.9	CRCL
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@5	90.6	CRCL
Cross-Modal Retrieval	CC152K	Image-to-text R@1	41.8	CRCL
Cross-Modal Retrieval	CC152K	Image-to-text R@10	76.5	CRCL
Cross-Modal Retrieval	CC152K	Image-to-text R@5	67.4	CRCL
Cross-Modal Retrieval	CC152K	R-Sum	373.7	CRCL
Cross-Modal Retrieval	CC152K	Text-to-image R@1	41.6	CRCL
Cross-Modal Retrieval	CC152K	Text-to-image R@10	78.4	CRCL
Cross-Modal Retrieval	CC152K	Text-to-image R@5	68	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@1	77.9	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@10	98.3	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@5	95.4	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	R-Sum	507.8	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@1	60.9	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@10	90.6	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@5	84.7	CRCL

Abstract

Results

Task	Dataset	Metric	Value	Model
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@1	79.6	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@10	98.7	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Image-to-text R@5	96.1	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	R-Sum	525.6	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@1	64.7	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@10	95.9	CRCL
Image Retrieval with Multi-Modal Query	COCO-Noisy	Text-to-image R@5	90.6	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@1	41.8	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@10	76.5	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Image-to-text R@5	67.4	CRCL
Image Retrieval with Multi-Modal Query	CC152K	R-Sum	373.7	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@1	41.6	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@10	78.4	CRCL
Image Retrieval with Multi-Modal Query	CC152K	Text-to-image R@5	68	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@1	77.9	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@10	98.3	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Image-to-text R@5	95.4	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	R-Sum	507.8	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@1	60.9	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@10	90.6	CRCL
Image Retrieval with Multi-Modal Query	Flickr30K-Noisy	Text-to-image R@5	84.7	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@1	79.6	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@10	98.7	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Image-to-text R@5	96.1	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	R-Sum	525.6	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@1	64.7	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@10	95.9	CRCL
Cross-Modal Information Retrieval	COCO-Noisy	Text-to-image R@5	90.6	CRCL
Cross-Modal Information Retrieval	CC152K	Image-to-text R@1	41.8	CRCL
Cross-Modal Information Retrieval	CC152K	Image-to-text R@10	76.5	CRCL
Cross-Modal Information Retrieval	CC152K	Image-to-text R@5	67.4	CRCL
Cross-Modal Information Retrieval	CC152K	R-Sum	373.7	CRCL
Cross-Modal Information Retrieval	CC152K	Text-to-image R@1	41.6	CRCL
Cross-Modal Information Retrieval	CC152K	Text-to-image R@10	78.4	CRCL
Cross-Modal Information Retrieval	CC152K	Text-to-image R@5	68	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@1	77.9	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@10	98.3	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Image-to-text R@5	95.4	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	R-Sum	507.8	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@1	60.9	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@10	90.6	CRCL
Cross-Modal Information Retrieval	Flickr30K-Noisy	Text-to-image R@5	84.7	CRCL
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@1	79.6	CRCL
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@10	98.7	CRCL
Cross-Modal Retrieval	COCO-Noisy	Image-to-text R@5	96.1	CRCL
Cross-Modal Retrieval	COCO-Noisy	R-Sum	525.6	CRCL
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@1	64.7	CRCL
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@10	95.9	CRCL
Cross-Modal Retrieval	COCO-Noisy	Text-to-image R@5	90.6	CRCL
Cross-Modal Retrieval	CC152K	Image-to-text R@1	41.8	CRCL
Cross-Modal Retrieval	CC152K	Image-to-text R@10	76.5	CRCL
Cross-Modal Retrieval	CC152K	Image-to-text R@5	67.4	CRCL
Cross-Modal Retrieval	CC152K	R-Sum	373.7	CRCL
Cross-Modal Retrieval	CC152K	Text-to-image R@1	41.6	CRCL
Cross-Modal Retrieval	CC152K	Text-to-image R@10	78.4	CRCL
Cross-Modal Retrieval	CC152K	Text-to-image R@5	68	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@1	77.9	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@10	98.3	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Image-to-text R@5	95.4	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	R-Sum	507.8	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@1	60.9	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@10	90.6	CRCL
Cross-Modal Retrieval	Flickr30K-Noisy	Text-to-image R@5	84.7	CRCL

Cross-modal Active Complementary Learning with Self-refining Correspondence

Abstract

Results

Related Papers

Cross-modal Active Complementary Learning with Self-refining Correspondence

Abstract

Results

Related Papers