Taming Data and Transformers for Audio Generation

Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Vicente Ordonez

2024-06-27arXiv 2024 6Audio Generation Audio captioning Audio Synthesis

Abstract

The scalability of ambient sound generators is hindered by data scarcity, insufficient caption quality, and limited scalability in model architecture. This work addresses these challenges by advancing both data and model scaling. First, we propose an efficient and scalable dataset collection pipeline tailored for ambient audio generation, resulting in AutoReCap-XL, the largest ambient audio-text dataset with over 47 million clips. To provide high-quality textual annotations, we propose AutoCap, a high-quality automatic audio captioning model. By adopting a Q-Former module and leveraging audio metadata, AutoCap substantially enhances caption quality, reaching a CIDEr score of $83.2$, a $3.2\%$ improvement over previous captioning models. Finally, we propose GenAu, a scalable transformer-based audio generation architecture that we scale up to 1.25B parameters. We demonstrate its benefits from data scaling with synthetic captions as well as model size scaling. When compared to baseline audio generators trained at similar size and data scale, GenAu obtains significant improvements of $4.7\%$ in FAD score, $11.1\%$ in IS, and $13.5\%$ in CLAP score. Our code, model checkpoints, and dataset are publicly available.

Results

Task	Dataset	Metric	Value	Model
Audio Generation	AudioCaps	CLAP_MS	0.668	GenAu-Large
Audio Generation	AudioCaps	FAD	1.21	GenAu-Large
Audio Generation	AudioCaps	FD	16.51	GenAu-Large
Audio captioning	AudioCaps	CIDEr	0.832	AutoCap
Audio captioning	AudioCaps	METEOR	0.253	AutoCap
Audio captioning	AudioCaps	ROUGE	0.518	AutoCap
Audio captioning	AudioCaps	ROUGE-L	0.518	AutoCap
Audio captioning	AudioCaps	SPICE	0.182	AutoCap
Audio captioning	AudioCaps	SPIDEr	0.507	AutoCap

Taming Data and Transformers for Audio Generation

Abstract

Results

Related Papers

Taming Data and Transformers for Audio Generation

Abstract

Results

Related Papers