VK-OOD

Reported on 28 benchmarks across 6 tasks · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Miscellaneous18 results

Image Retrieval with Multi-Modal QueryonCOCO 2014
Image-to-text R@1· uses extra data
80.7
best: 84.8 (BEiT-3)
Image Retrieval with Multi-Modal QueryonCOCO 2014
Image-to-text R@10· uses extra data
96.8
best: 98.5 (X2-VLM (large))
Image Retrieval with Multi-Modal QueryonCOCO 2014
Image-to-text R@5· uses extra data
95.1
best: 96.5 (X2-VLM (large))
Image Retrieval with Multi-Modal QueryonCOCO 2014
Text-to-image R@1· uses extra data
62.9
best: 68 (VAST)
Image Retrieval with Multi-Modal QueryonCOCO 2014
Text-to-image R@10· uses extra data
92.8
Image Retrieval with Multi-Modal QueryonCOCO 2014
Text-to-image R@5· uses extra data
84.8
best: 92.8 (BEiT-3)
Image Retrieval with Multi-Modal QueryonFlickr30k
Image-to-text R@1
89
best: 98.8 (X2-VLM (large))
Image Retrieval with Multi-Modal QueryonFlickr30k
Image-to-text R@10
99.8
best: 100 (X2-VLM (large))
Image Retrieval with Multi-Modal QueryonFlickr30k
Image-to-text R@5
99.2
best: 100 (X2-VLM (large))
Image Retrieval with Multi-Modal QueryonFlickr30k
Text-to-image R@1
77.2
best: 93.3 (ERNIE-ViL 2.0)
Image Retrieval with Multi-Modal QueryonFlickr30k
Text-to-image R@10
98.2
best: 99.8 (ERNIE-ViL 2.0)
Image Retrieval with Multi-Modal QueryonFlickr30k
Text-to-image R@5
94.3
best: 99.5 (M2-Encoder)
Cross-Modal Information RetrievalonCOCO 2014
Image-to-text R@1· uses extra data
80.7
best: 84.8 (BEiT-3)
Cross-Modal Information RetrievalonCOCO 2014
Image-to-text R@10· uses extra data
96.8
best: 98.5 (X2-VLM (large))
Cross-Modal Information RetrievalonCOCO 2014
Image-to-text R@5· uses extra data
95.1
best: 96.5 (X2-VLM (large))
Cross-Modal Information RetrievalonCOCO 2014
Text-to-image R@1· uses extra data
62.9
best: 68 (VAST)
Cross-Modal Information RetrievalonCOCO 2014
Text-to-image R@10· uses extra data
92.8
Cross-Modal Information RetrievalonCOCO 2014
Text-to-image R@5· uses extra data
84.8
best: 92.8 (BEiT-3)

Natural Language Processing11 results

Visual Question Answering (VQA)onVQA v2 test-dev
Accuracy· 2023-02-11
76.8
best: 84.3 (PaLI)
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis arXiv:2302.05608
Visual Question AnsweringonVQA v2 test-dev
Accuracy· 2023-02-11
76.8
best: 82.3 (BLIP-2 ViT-G OPT 6.7B (fine-tuned))
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis arXiv:2302.05608
Visual Question Answering (VQA)onOK-VQA
Accuracy
52.4
best: 66.8 (PaLI-X-VPD)
Visual Question Answering (VQA)onOK-VQA
Accuracy
52.4
best: 66.8 (PaLI-X-VPD)
Visual Question Answering (VQA)onVQA v2 test-dev
Accuracy
77.9
best: 84.3 (PaLI)
Cross-Modal RetrievalonCOCO 2014
Image-to-text R@1· uses extra data
80.7
best: 84.8 (BEiT-3)
Cross-Modal RetrievalonCOCO 2014
Image-to-text R@10· uses extra data
96.8
best: 98.5 (X2-VLM (large))
Cross-Modal RetrievalonCOCO 2014
Image-to-text R@5· uses extra data
95.1
best: 96.5 (X2-VLM (large))
Cross-Modal RetrievalonCOCO 2014
Text-to-image R@1· uses extra data
62.9
best: 68 (VAST)
Cross-Modal RetrievalonCOCO 2014
Text-to-image R@10· uses extra data
92.8
Cross-Modal RetrievalonCOCO 2014
Text-to-image R@5· uses extra data
84.8
best: 92.8 (BEiT-3)

Reasoning2 results

Visual ReasoningonNLVR2 Dev
Accuracy· 2023-02-11
83.9
best: 91.51 (BEiT-3)
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis arXiv:2302.05608
Visual ReasoningonNLVR2 Dev
Accuracy
84.6
best: 91.51 (BEiT-3)