Audio captioning on Clotho

Metric: CIDEr (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	CIDEr▼	Extra Data	Paper	Date↕	Code
1	ZerAuCap	14	No	Zero-shot audio captioning with audio-language m...	2023-11-14	Code
2	VAST	0.519	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
3	SLAM-AAC	0.515	Yes	SLAM-AAC: Enhancing Audio Captioning with Paraph...	2024-10-12	Code
4	LOAE	0.513	Yes	Enhancing Automated Audio Captioning via Large L...	2024-06-19	Code
5	MQ-Cap	0.496	No	Enhancing Retrieval-Augmented Audio Captioning w...	2024-10-14	-
6	Audio Flamingo (Pengi trainset)	0.489	Yes	Audio Flamingo: A Novel Audio Language Model wit...	2024-02-02	Code
7	Ensemble-RL	0.468	Yes	-	-	Code
8	Qwen-Audio	0.441	Yes	Qwen-Audio: Advancing Universal Audio Understand...	2023-11-14	Code
9	VALOR	0.423	Yes	VALOR: Vision-Audio-Language Omni-Perception Pre...	2023-04-17	Code
10	Ensemble	0.4	Yes	-	-	-
11	Ensemble	0.319	No	The NTT DCASE2020 Challenge Task 6 system: Autom...	2020-07-01	-
12	RNN-GRU-EncDec + VGGish + Word2Vec	0.18	No	Audio Captioning using Gated Recurrent Units	2020-06-05	-

#1ZerAuCapSOTA
14
CIDEr· 2023-11-14
Zero-shot audio captioning with audio-language model guidance and audio context keywords Code
#2VASTSOTA
0.519
CIDEr· Extra Data· 2023-05-29
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Code
#3SLAM-AAC
0.515
CIDEr· Extra Data· 2024-10-12
SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs Code
#4LOAE
0.513
CIDEr· Extra Data· 2024-06-19
Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding Code
#5MQ-Cap
0.496
CIDEr· 2024-10-14
Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning
#6Audio Flamingo (Pengi trainset)
0.489
CIDEr· Extra Data· 2024-02-02
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities Code
#7Ensemble-RL
0.468
CIDEr· Extra Data
No paperCode
#8Qwen-Audio
0.441
CIDEr· Extra Data· 2023-11-14
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models Code
#9VALORSOTA
0.423
CIDEr· Extra Data· 2023-04-17
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Code
#10Ensemble
0.4
CIDEr· Extra Data
No paper
#11EnsembleSOTA
0.319
CIDEr· 2020-07-01
The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning with Keywords and Sentence Length Estimation
#12RNN-GRU-EncDec + VGGish + Word2VecSOTA
0.18
CIDEr· 2020-06-05
Audio Captioning using Gated Recurrent Units