Audio captioning on AudioCaps

Metric: ROUGE-L (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	ROUGE-L▼	Extra Data	Paper	Date↕	Code
1	Audio Flamingo	40.8	Yes	Audio Flamingo: A Novel Audio Language Model wit...	2024-02-02	Code
2	ZerAuCap	33.1	Yes	Zero-shot audio captioning with audio-language m...	2023-11-14	Code
3	No audio (baseline)	17.8	No	Zero-shot audio captioning with audio-language m...	2023-11-14	Code
4	Shaharabany et al.	8.2	Yes	Zero-Shot Audio Captioning via Audibility Guidance	2023-09-07	-
5	AutoCap	0.518	No	Taming Data and Transformers for Audio Generation	2024-06-27	Code
6	LAVCap	0.51	No	LAVCap: LLM-based Audio-Visual Captioning using ...	2025-01-16	Code
7	VAST	0.509	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
8	Rethink-ACT (AST + TF + MIL)	0.504	No	-	-	-
9	VALOR	0.494	Yes	VALOR: Vision-Audio-Language Omni-Perception Pre...	2023-04-17	Code

#1Audio FlamingoSOTA
40.8
ROUGE-L· Extra Data· 2024-02-02
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities Code
#2ZerAuCapSOTA
33.1
ROUGE-L· Extra Data· 2023-11-14
Zero-shot audio captioning with audio-language model guidance and audio context keywords Code
#3No audio (baseline)
17.8
ROUGE-L· 2023-11-14
Zero-shot audio captioning with audio-language model guidance and audio context keywords Code
#4Shaharabany et al.SOTA
8.2
ROUGE-L· Extra Data· 2023-09-07
Zero-Shot Audio Captioning via Audibility Guidance
#5AutoCap
0.518
ROUGE-L· 2024-06-27
Taming Data and Transformers for Audio Generation Code
#6LAVCap
0.51
ROUGE-L· 2025-01-16
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport Code
#7VASTSOTA
0.509
ROUGE-L· Extra Data· 2023-05-29
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Code
#8Rethink-ACT (AST + TF + MIL)
0.504
ROUGE-L
No paper
#9VALORSOTA
0.494
ROUGE-L· Extra Data· 2023-04-17
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Code