PaSST-RoBERTa & Estimated Audio–Caption Correspondences

Reported on 4 benchmarks across 1 task · 1 paper · 4 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Audio4 results

Text to Audio RetrievalonClotho
R@1· uses extra data· 2024-08-21
27.69
SOTA
Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval arXiv:2408.11641
Text to Audio RetrievalonClotho
R@10· uses extra data· 2024-08-21
70.39
SOTA
Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval arXiv:2408.11641
Text to Audio RetrievalonClotho
R@5· uses extra data· 2024-08-21
57.03
SOTA
Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval arXiv:2408.11641
Text to Audio RetrievalonClotho
mAP@10· uses extra data· 2024-08-21
40.14
SOTA
Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval arXiv:2408.11641