Audio captioning on AudioCaps

Metric: METEOR (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	METEOR▼	Extra Data	Paper	Date↕	Code
1	Audio Flamingo	20.5	Yes	Audio Flamingo: A Novel Audio Language Model wit...	2024-02-02	Code
2	ZerAuCap	12.3	Yes	Zero-shot audio captioning with audio-language m...	2023-11-14	Code
3	Shaharabany et al.	8.6	Yes	Zero-Shot Audio Captioning via Audibility Guidance	2023-09-07	-
4	No audio (baseline)	4.1	No	Zero-shot audio captioning with audio-language m...	2023-11-14	Code
5	EnCLAP++-large	0.269	Yes	EnCLAP++: Analyzing the EnCLAP Framework for Opt...	2024-09-02	Code
6	SLAM-AAC	0.268	Yes	SLAM-AAC: Enhancing Audio Captioning with Paraph...	2024-10-12	Code
7	LOAE	0.267	Yes	Enhancing Automated Audio Captioning via Large L...	2024-06-19	Code
8	MQ-Cap	0.266	Yes	Enhancing Retrieval-Augmented Audio Captioning w...	2024-10-14	-
9	LAVCap	0.262	No	LAVCap: LLM-based Audio-Visual Captioning using ...	2025-01-16	Code
10	EnCLAP++-base	0.257	Yes	EnCLAP++: Analyzing the EnCLAP Framework for Opt...	2024-09-02	Code
11	EnCLAP-large	0.2554	No	EnCLAP: Combining Neural Audio Codec and Audio-T...	2024-01-31	Code
12	AutoCap	0.253	No	Taming Data and Transformers for Audio Generation	2024-06-27	Code
13	CNext-trans	0.2527	No	-	-	-
14	EnCLAP-base	0.2473	No	EnCLAP: Combining Neural Audio Codec and Audio-T...	2024-01-31	Code
15	VAST	0.247	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
16	Rethink-ACT (AST + TF + MIL)	0.242	No	-	-	-
17	VALOR	0.231	Yes	VALOR: Vision-Audio-Language Omni-Perception Pre...	2023-04-17	Code

#1Audio FlamingoSOTA
20.5
METEOR· Extra Data· 2024-02-02
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities Code
#2ZerAuCapSOTA
12.3
METEOR· Extra Data· 2023-11-14
Zero-shot audio captioning with audio-language model guidance and audio context keywords Code
#3Shaharabany et al.SOTA
8.6
METEOR· Extra Data· 2023-09-07
Zero-Shot Audio Captioning via Audibility Guidance
#4No audio (baseline)
4.1
METEOR· 2023-11-14
Zero-shot audio captioning with audio-language model guidance and audio context keywords Code
#5EnCLAP++-large
0.269
METEOR· Extra Data· 2024-09-02
EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance Code
#6SLAM-AAC
0.268
METEOR· Extra Data· 2024-10-12
SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs Code
#7LOAE
0.267
METEOR· Extra Data· 2024-06-19
Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding Code
#8MQ-Cap
0.266
METEOR· Extra Data· 2024-10-14
Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning
#9LAVCap
0.262
METEOR· 2025-01-16
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport Code
#10EnCLAP++-base
0.257
METEOR· Extra Data· 2024-09-02
EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance Code
#11EnCLAP-large
0.2554
METEOR· 2024-01-31
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning Code
#12AutoCap
0.253
METEOR· 2024-06-27
Taming Data and Transformers for Audio Generation Code
#13CNext-trans
0.2527
METEOR
No paper
#14EnCLAP-base
0.2473
METEOR· 2024-01-31
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning Code
#15VASTSOTA
0.247
METEOR· Extra Data· 2023-05-29
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Code
#16Rethink-ACT (AST + TF + MIL)
0.242
METEOR
No paper
#17VALORSOTA
0.231
METEOR· Extra Data· 2023-04-17
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Code