Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro

2024-02-02Few-Shot Learning Zero-shot Audio Captioning Audio captioning Retrieval Retrieval-augmented Few-shot In-context Audio Captioning Language Modelling Acoustic Scene Classification

Paper PDF Code(official)

Abstract

Augmenting large language models (LLMs) to understand audio -- including non-speech sounds and non-verbal speech -- is critically important for diverse real-world applications of LLMs. In this paper, we propose Audio Flamingo, a novel audio language model with 1) strong audio understanding abilities, 2) the ability to quickly adapt to unseen tasks via in-context learning and retrieval, and 3) strong multi-turn dialogue abilities. We introduce a series of training techniques, architecture design, and data strategies to enhance our model with these abilities. Extensive evaluations across various audio understanding tasks confirm the efficacy of our method, setting new state-of-the-art benchmarks. Our demo website is https://audioflamingo.github.io/ and the code is open-sourced at https://github.com/NVIDIA/audio-flamingo.

Results

Task	Dataset	Metric	Value	Model
Acoustic Scene Classification	CochlScene	1:1 Accuracy	0.83	Audio Flamingo
Audio captioning	Clotho	BLEU-4	17.4	Audio Flamingo (Pengi trainset)
Audio captioning	Clotho	CIDEr	0.489	Audio Flamingo (Pengi trainset)
Audio captioning	Clotho	METEOR	18.7	Audio Flamingo (Pengi trainset)
Audio captioning	Clotho	ROUGE-L	39.4	Audio Flamingo (Pengi trainset)
Audio captioning	Clotho	SPICE	0.134	Audio Flamingo (Pengi trainset)
Audio captioning	Clotho	SPIDEr	0.312	Audio Flamingo (Pengi trainset)
Audio captioning	AudioCaps	CIDEr	0.518	Audio Flamingo (4-shot)
Audio captioning	AudioCaps	BLEU-4	14.3	Audio Flamingo
Audio captioning	AudioCaps	CIDEr	50.2	Audio Flamingo
Audio captioning	AudioCaps	METEOR	20.5	Audio Flamingo
Audio captioning	AudioCaps	ROUGE-L	40.8	Audio Flamingo
Audio captioning	AudioCaps	SPICE	15.1	Audio Flamingo
Audio captioning	AudioCaps	SPIDEr	32.6	Audio Flamingo

Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

Abstract

Results

Related Papers

Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

Abstract

Results

Related Papers