Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Datasets/AudioCaps

AudioCaps

AudioTextsUnknownIntroduced 2019-06-01

AudioCaps is a dataset of sounds with event descriptions that was introduced for the task of audio captioning, with sounds sourced from the AudioSet dataset. Annotators were provided the audio tracks together with category hints (and with additional video hints if needed).

Source: Audio Retrieval with Natural Language Queries

Image source: https://audiocaps.github.io/

Benchmarks

Audio Generation/FD_openl3 Audio Generation/FAD Audio Generation/FD Audio Generation/KL_passt Audio Generation/IS Audio Generation/CLAP_LAION Audio Generation/CLAP_MS Audio Source Separation/SDRi Audio Source Separation/SI-SDRi Audio captioning/SPIDEr Audio captioning/CIDEr Audio captioning/SPICE Audio captioning/BLEU-4 Audio captioning/METEOR Audio captioning/ROUGE-L Audio captioning/FENSE Audio captioning/SPIDEr-FL Audio captioning/#params (M)Audio captioning/ROUGE Audio captioning/Sentence-BERT Target Sound Extraction/SDRi Target Sound Extraction/SI-SDRi Text to Audio Retrieval/R@1 Text to Audio Retrieval/R@5 Text to Audio Retrieval/R@10

Statistics

Papers: 279
Benchmarks: 25

Links

Tasks

Audio Generation Audio Source Separation Audio captioning Audio to Text Retrieval Audio/Video to Text Retrieval Retrieval-augmented Few-shot In-context Audio Captioning Target Sound Extraction Text to Audio Retrieval Text to Audio/Video Retrieval Zero-Shot Audio Retrieval Zero-shot Audio Captioning Zero-shot Text to Audio Retrieval