Zero-shot audio captioning with audio-language model guidance and audio context keywords

Leonard Salewski, Stefan Fauth, A. Sophia Koepke, Zeynep Akata

2023-11-14Speech Recognition Descriptive speech-recognition Zero-shot Audio Captioning Audio captioning Image Captioning Large Language Model Language Modelling

Paper PDF Code(official)

Abstract

Zero-shot audio captioning aims at automatically generating descriptive textual captions for audio content without prior training for this task. Different from speech recognition which translates audio content that contains spoken language into text, audio captioning is commonly concerned with ambient sounds, or sounds produced by a human performing an action. Inspired by zero-shot image captioning methods, we propose ZerAuCap, a novel framework for summarising such general audio signals in a text caption without requiring task-specific training. In particular, our framework exploits a pre-trained large language model (LLM) for generating the text which is guided by a pre-trained audio-language model to produce captions that describe the audio content. Additionally, we use audio context keywords that prompt the language model to generate text that is broadly relevant to sounds. Our proposed framework achieves state-of-the-art results in zero-shot audio captioning on the AudioCaps and Clotho datasets. Our code is available at https://github.com/ExplainableML/ZerAuCap.

Results

Task	Dataset	Metric	Value	Model
Audio captioning	AudioCaps	BLEU-4	6.8	ZerAuCap
Audio captioning	AudioCaps	CIDEr	28.1	ZerAuCap
Audio captioning	AudioCaps	METEOR	12.3	ZerAuCap
Audio captioning	AudioCaps	ROUGE-L	33.1	ZerAuCap
Audio captioning	AudioCaps	SPICE	8.6	ZerAuCap
Audio captioning	AudioCaps	SPIDEr	18.3	ZerAuCap
Audio captioning	AudioCaps	CIDEr	0.1	No audio (baseline)
Audio captioning	AudioCaps	METEOR	4.1	No audio (baseline)
Audio captioning	AudioCaps	ROUGE-L	17.8	No audio (baseline)
Audio captioning	Clotho	BLEU-4	2.9	ZerAuCap
Audio captioning	Clotho	CIDEr	14	ZerAuCap
Audio captioning	Clotho	METEOR	9.4	ZerAuCap
Audio captioning	Clotho	ROUGE-L	25.4	ZerAuCap
Audio captioning	Clotho	SPICE	5.3	ZerAuCap
Audio captioning	Clotho	SPIDEr	9.7	ZerAuCap

Related Papers

Visual-Language Model Knowledge Distillation Method for Image Quality Assessment2025-07-21 DENSE: Longitudinal Progress Note Generation with Temporal Modeling of Heterogeneous Clinical Notes Across Hospital Visits2025-07-18 Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine2025-07-17 NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech2025-07-17 DiffRhythm+: Controllable and Flexible Full-Length Song Generation with Preference Optimization2025-07-17 GeoReg: Weight-Constrained Few-Shot Regression for Socio-Economic Estimation using LLM2025-07-17 The Generative Energy Arena (GEA): Incorporating Energy Awareness in Large Language Model (LLM) Human Evaluations2025-07-17 Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities2025-07-17