Cross-Modal Retrieval

60 benchmarks522 papers

Cross-Modal Retrieval (CMR) is a task of retrieving items across different modalities, such as image, text, video, and audio. The core challenge of CMR is the heterogeneity gap, which arises because data from different modalities have distinct representations, making direct comparison difficult. To address this, most CMR methods focus on learning a shared latent embedding space. In this space, concepts from different modalities are projected, allowing their similarity to be measured using a distance metric.

<span class="description-source">Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study</span>

Benchmarks

Cross-Modal Retrieval

Benchmarks

Cross-Modal Retrieval on COCO 2014

Cross-Modal Retrieval on Flickr30k

Cross-Modal Retrieval on COCO-Noisy

Cross-Modal Retrieval on Flickr30K-Noisy

Cross-Modal Retrieval on CC152K

Cross-Modal Retrieval on ChEBI-20

Cross-Modal Retrieval on Recipe1M

Cross-Modal Retrieval on CommercialAdsDataset

Cross-Modal Retrieval on ITCPR dataset

Cross-Modal Retrieval on MSCOCO-1k

Cross-Modal Retrieval on Recipe1M+

Cross-Modal Retrieval on SoundingEarth

Cross-Modal Retrieval on CUHK-PEDES

Cross-Modal Retrieval on Flickr-8k

Cross-Modal Retrieval on MS-COCO-2014

Cross-Modal Retrieval on MSCOCO

Cross-Modal Retrieval on RSICD

Cross-Modal Retrieval on RSITMD

Cross-Modal Retrieval

Benchmarks

Cross-Modal Retrieval on COCO 2014

Cross-Modal Retrieval on Flickr30k

Cross-Modal Retrieval on COCO-Noisy

Cross-Modal Retrieval on Flickr30K-Noisy

Cross-Modal Retrieval on CC152K

Cross-Modal Retrieval on ChEBI-20

Cross-Modal Retrieval on Recipe1M

Cross-Modal Retrieval on CommercialAdsDataset

Cross-Modal Retrieval on ITCPR dataset

Cross-Modal Retrieval on MSCOCO-1k

Cross-Modal Retrieval on Recipe1M+

Cross-Modal Retrieval on SoundingEarth

Cross-Modal Retrieval on CUHK-PEDES

Cross-Modal Retrieval on Flickr-8k

Cross-Modal Retrieval on MS-COCO-2014

Cross-Modal Retrieval on MSCOCO

Cross-Modal Retrieval on RSICD

Cross-Modal Retrieval on RSITMD