Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/TADP

TADP

Reported on 26 benchmarks across 8 tasks · 1 paper · 13 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Methodology14 results

3DonWatercolor2k
MAP· 2023-09-29
72.2
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
3DonNYU-Depth V2
Delta < 1.25· uses extra data· 2023-09-29
0.976
best: 0.989 (UniK3D (FT, metric))
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
3DonNYU-Depth V2
Delta < 1.25^2· uses extra data· 2023-09-29
0.997
best: 1 (HybridDepth)
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
3DonNYU-Depth V2
absolute relative error· uses extra data· 2023-09-29
0.062
best: 0.026 (HybridDepth)
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
2D ClassificationonWatercolor2k
MAP· 2023-09-29
72.2
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
2D Object DetectiononWatercolor2k
MAP· 2023-09-29
72.2
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
16konWatercolor2k
MAP· 2023-09-29
72.2
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
3DonComic2k
MAP· 2023-09-29
57.4
best: 67.41 (DASS-Detector (YOLOX Tiny))
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
3DonNYU-Depth V2
Delta < 1.25^3· uses extra data· 2023-09-29
0.999
best: 1 (HybridDepth)
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
3DonNYU-Depth V2
RMSE· uses extra data· 2023-09-29
0.225
best: 0.013 (Defocus/DepthNet (Normalized))
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
3DonNYU-Depth V2
log 10· uses extra data· 2023-09-29
0.027
best: 0.059 (SC-DepthV2)
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
2D ClassificationonComic2k
MAP· 2023-09-29
57.4
best: 67.41 (DASS-Detector (YOLOX Tiny))
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
2D Object DetectiononComic2k
MAP· 2023-09-29
57.4
best: 67.41 (DASS-Detector (YOLOX Tiny))
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
16konComic2k
MAP· 2023-09-29
57.4
best: 67.41 (DASS-Detector (YOLOX Tiny))
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031

Computer Vision8 results

Depth EstimationonNYU-Depth V2
Delta < 1.25· uses extra data· 2023-09-29
0.976
best: 0.989 (UniK3D (FT, metric))
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
Depth EstimationonNYU-Depth V2
Delta < 1.25^2· uses extra data· 2023-09-29
0.997
best: 1 (HybridDepth)
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
Depth EstimationonNYU-Depth V2
absolute relative error· uses extra data· 2023-09-29
0.062
best: 0.026 (HybridDepth)
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
Object DetectiononWatercolor2k
MAP· 2023-09-29
72.2
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
Depth EstimationonNYU-Depth V2
Delta < 1.25^3· uses extra data· 2023-09-29
0.999
best: 1 (HybridDepth)
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
Depth EstimationonNYU-Depth V2
RMSE· uses extra data· 2023-09-29
0.225
best: 0.013 (Defocus/DepthNet (Normalized))
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
Depth EstimationonNYU-Depth V2
log 10· uses extra data· 2023-09-29
0.027
best: 0.059 (SC-DepthV2)
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
Object DetectiononComic2k
MAP· 2023-09-29
57.4
best: 67.41 (DASS-Detector (YOLOX Tiny))
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031

Medical2 results

Semantic SegmentationonNighttime Driving
mIoU· 2023-09-29
60.8
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
Semantic SegmentationonADE20K
Validation mIoU· 2023-09-29
55.9
best: 63.6 (ViT-P (InternImage-H))
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031

Audio2 results

10-shot image generationonNighttime Driving
mIoU· 2023-09-29
60.8
SOTA
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031
10-shot image generationonADE20K
Validation mIoU· 2023-09-29
55.9
best: 63.6 (ViT-P (InternImage-H))
Text-image Alignment for Diffusion-based Perception arXiv:2310.00031