Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/ImageScope (CLIP-ViT-L/14)

ImageScope (CLIP-ViT-L/14)

Reported on 21 benchmarks across 2 tasks · 1 paper · 7 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Computer Vision21 results

Image RetrievalonCIRCO
MAP@5· 2025-03-13
28.36
SOTA
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonCIRCO
mAP@25· 2025-03-13
30.81
SOTA
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonCIRCO
mAP@50· 2025-03-13
31.88
SOTA
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonVisDial
Hits@10 on 10 Round· 2025-03-13
79.89
SOTA
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onCIRCO
MAP@5· 2025-03-13
28.36
SOTA
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onCIRCO
mAP@25· 2025-03-13
30.81
SOTA
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onCIRCO
mAP@50· 2025-03-13
31.88
SOTA
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonFashion IQ
R@10· 2025-03-13
31.36
best: 49.96 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonFashion IQ
R@50· 2025-03-13
50.78
best: 71.17 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonCIRCO
mAP@10· 2025-03-13
29.23
best: 43.4 (MMRet-MLLM)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonCIRR
R@1· 2025-03-13
39.37
best: 50.43 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonCIRR
R@10· 2025-03-13
78.05
best: 84.7 (CoLLM (finetuned - BLIP-L/16))
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonCIRR
R@5· 2025-03-13
67.54
best: 81.08 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Image RetrievalonCIRR
R@50· 2025-03-13
92.94
best: 96.1 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onFashion IQ
R@10· 2025-03-13
31.36
best: 49.96 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onFashion IQ
R@50· 2025-03-13
50.78
best: 71.17 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onCIRCO
mAP@10· 2025-03-13
29.23
best: 43.4 (MMRet-MLLM)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onCIRR
R@1· 2025-03-13
39.37
best: 50.43 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onCIRR
R@10· 2025-03-13
78.05
best: 84.7 (CoLLM (finetuned - BLIP-L/16))
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onCIRR
R@5· 2025-03-13
67.54
best: 81.08 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166
Composed Image Retrieval (CoIR)onCIRR
R@50· 2025-03-13
92.94
best: 96.1 (CoVR-BLIP-2)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning arXiv:2503.10166