Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/VLT

VLT

Reported on 26 benchmarks across 5 tasks · 2 papers · 28 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Computer Vision34 results

VideoonRefer-YouTube-VOS
F· uses extra data· 2022-10-28
65.6
best: 75.7 (FindTrack)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
VideoonRefer-YouTube-VOS
J· uses extra data· 2022-10-28
61.9
best: 71.8 (FindTrack)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
VideoonRefer-YouTube-VOS
J&F· uses extra data· 2022-10-28
63.8
best: 73.7 (FindTrack)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Instance SegmentationonRefCoCo val
Overall IoU· 2022-10-28
72.96
best: 85.41 (DeRIS-L)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Instance SegmentationonRefer-YouTube-VOS (2021 public validation)
F· 2022-10-28
65.6
best: 76.1 (MPG-SAM 2)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Instance SegmentationonRefer-YouTube-VOS (2021 public validation)
J· 2022-10-28
61.9
best: 71.7 (MPG-SAM 2)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Instance SegmentationonRefer-YouTube-VOS (2021 public validation)
J&F· 2022-10-28
63.8
best: 73.9 (MPG-SAM 2)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Instance SegmentationonRefCOCO+ val
Overall IoU· 2022-10-28
63.53
best: 79.4 (MLCD-Seg-7B)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Instance SegmentationonRefCOCO+ test B
Overall IoU· 2022-10-28
56.92
best: 75.6 (MLCD-Seg-7B)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Instance SegmentationonRefCOCO+ testA
Overall IoU· 2022-10-28
68.43
best: 83.5 (HyperSeg)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Video Object SegmentationonRefer-YouTube-VOS
F· uses extra data· 2022-10-28
65.6
best: 75.7 (FindTrack)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Video Object SegmentationonRefer-YouTube-VOS
J· uses extra data· 2022-10-28
61.9
best: 71.8 (FindTrack)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Video Object SegmentationonRefer-YouTube-VOS
J&F· uses extra data· 2022-10-28
63.8
best: 73.7 (FindTrack)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Referring Expression SegmentationonRefCoCo val
Overall IoU· 2022-10-28
72.96
best: 85.41 (DeRIS-L)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Referring Expression SegmentationonRefer-YouTube-VOS (2021 public validation)
F· 2022-10-28
65.6
best: 76.1 (MPG-SAM 2)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Referring Expression SegmentationonRefer-YouTube-VOS (2021 public validation)
J· 2022-10-28
61.9
best: 71.7 (MPG-SAM 2)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Referring Expression SegmentationonRefer-YouTube-VOS (2021 public validation)
J&F· 2022-10-28
63.8
best: 73.9 (MPG-SAM 2)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Referring Expression SegmentationonRefCOCO+ val
Overall IoU· 2022-10-28
63.53
best: 79.4 (MLCD-Seg-7B)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Referring Expression SegmentationonRefCOCO+ test B
Overall IoU· 2022-10-28
56.92
best: 75.6 (MLCD-Seg-7B)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Referring Expression SegmentationonRefCOCO+ testA
Overall IoU· 2022-10-28
68.43
best: 83.5 (HyperSeg)
SOTA
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2210.15871
Instance SegmentationonRefCOCO+ val
Overall IoU· 2021-08-12
55.5
best: 79.4 (MLCD-Seg-7B)
SOTA
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Instance SegmentationonRefCOCO+ test B
Overall IoU· 2021-08-12
49.36
best: 75.6 (MLCD-Seg-7B)
SOTA
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Instance SegmentationonRefCOCO+ testA
Overall IoU· 2021-08-12
59.2
best: 83.5 (HyperSeg)
SOTA
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Instance SegmentationongRefCOCO
cIoU· 2021-08-12
52.51
best: 72 (DeRIS-L)
SOTA
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Referring Expression SegmentationonRefCOCO+ val
Overall IoU· 2021-08-12
55.5
best: 79.4 (MLCD-Seg-7B)
SOTA
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Referring Expression SegmentationonRefCOCO+ test B
Overall IoU· 2021-08-12
49.36
best: 75.6 (MLCD-Seg-7B)
SOTA
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Referring Expression SegmentationonRefCOCO+ testA
Overall IoU· 2021-08-12
59.2
best: 83.5 (HyperSeg)
SOTA
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Referring Expression SegmentationongRefCOCO
cIoU· 2021-08-12
52.51
best: 72 (DeRIS-L)
SOTA
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Instance SegmentationonRefCoCo val
Overall IoU· 2021-08-12
65.65
best: 85.41 (DeRIS-L)
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Instance SegmentationongRefCOCO
gIoU· 2021-08-12
52
best: 77.67 (DeRIS-L)
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Referring Expression SegmentationonRefCoCo val
Overall IoU· 2021-08-12
65.65
best: 85.41 (DeRIS-L)
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Referring Expression SegmentationongRefCOCO
gIoU· 2021-08-12
52
best: 77.67 (DeRIS-L)
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Generalized Referring Expression ComprehensionongRefCOCO
N-acc.· 2021-08-12
35.2
best: 54.7 (SimVG-DB)
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565
Generalized Referring Expression ComprehensionongRefCOCO
Precision@(F1=1, IoU≥0.5)· 2021-08-12
36.6
best: 62.1 (SimVG-DB)
Vision-Language Transformer and Query Generation for Referring Segmentation arXiv:2108.05565