AST: Audio Spectrogram Transformer

Yuan Gong, Yu-An Chung, James Glass

2021-04-05Keyword Spotting Audio Classification Audio Tagging Speech Emotion Recognition General Classification Classification Time Series Analysis

Paper PDF Code Code Code Code(official)Code

Abstract

In the past decade, convolutional neural networks (CNNs) have been widely adopted as the main building block for end-to-end audio classification models, which aim to learn a direct mapping from audio spectrograms to corresponding labels. To better capture long-range global context, a recent trend is to add a self-attention mechanism on top of the CNN, forming a CNN-attention hybrid model. However, it is unclear whether the reliance on a CNN is necessary, and if neural networks purely based on attention are sufficient to obtain good performance in audio classification. In this paper, we answer the question by introducing the Audio Spectrogram Transformer (AST), the first convolution-free, purely attention-based model for audio classification. We evaluate AST on various audio classification benchmarks, where it achieves new state-of-the-art results of 0.485 mAP on AudioSet, 95.6% accuracy on ESC-50, and 98.1% accuracy on Speech Commands V2.

Results

Task	Dataset	Metric	Value	Model
Keyword Spotting	Google Speech Commands	Google Speech Commands V2 35	98.11	Audio Spectrogram Transformer
Emotion Recognition	CREMA-D	Accuracy	67.81	ViT
Audio Classification	ESC-50	Accuracy (5-fold)	95.7	Audio Spectrogram Transformer
Audio Classification	ESC-50	Top-1 Accuracy	95.7	Audio Spectrogram Transformer
Audio Classification	AudioSet	Test mAP	0.485	AST (Ensemble)
Audio Classification	AudioSet	Test mAP	0.459	AST (Single)
Audio Tagging	AudioSet	mean average precision	0.485	Audio Spectrogram Transformer
Time Series Analysis	Speech Commands	% Test Accuracy	98.11	ViT
Classification	ESC-50	Accuracy (5-fold)	95.7	Audio Spectrogram Transformer
Classification	ESC-50	Top-1 Accuracy	95.7	Audio Spectrogram Transformer
Classification	AudioSet	Test mAP	0.485	AST (Ensemble)
Classification	AudioSet	Test mAP	0.459	AST (Single)
Speech Emotion Recognition	CREMA-D	Accuracy	67.81	ViT

AST: Audio Spectrogram Transformer

Abstract

Results

Related Papers

AST: Audio Spectrogram Transformer

Abstract

Results

Related Papers