Contrastive Audio-Visual Masked Autoencoder

Yuan Gong, Andrew Rouditchenko, Alexander H. Liu, David Harwath, Leonid Karlinsky, Hilde Kuehne, James Glass

2022-10-02Multi-modal Classification Sound Prompted Semantic Segmentation Audio Classification Self-Supervised Learning Audio Tagging Contrastive Learning Retrieval Speech Prompted Semantic Segmentation

Paper PDF Code(official)

Abstract

In this paper, we first extend the recent Masked Auto-Encoder (MAE) model from a single modality to audio-visual multi-modalities. Subsequently, we propose the Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE) by combining contrastive learning and masked data modeling, two major self-supervised learning frameworks, to learn a joint and coordinated audio-visual representation. Our experiments show that the contrastive audio-visual correspondence learning objective not only enables the model to perform audio-visual retrieval tasks, but also helps the model learn a better joint representation. As a result, our fully self-supervised pretrained CAV-MAE achieves a new SOTA accuracy of 65.9% on VGGSound, and is comparable with the previous best supervised pretrained model on AudioSet in the audio-visual event classification task. Code and pretrained models are at https://github.com/yuangongnd/cav-mae.

Results

Task	Dataset	Metric	Value	Model
Semantic Segmentation	ADE20K	mAP	27.2	CAVMAE
Semantic Segmentation	ADE20K	mIoU	19.9	CAVMAE
Semantic Segmentation	ADE20K	mAP	26	CAVMAE
Semantic Segmentation	ADE20K	mIoU	17	CAVMAE
Audio Classification	AudioSet	Test mAP	0.512	CAV-MAE (Audio-Visual)
Audio Classification	AudioSet	Test mAP	0.466	CAV-MAE (Audio-Only)
Audio Classification	AudioSet	Test mAP	0.262	CAV-MAE (Visual-Only)
Audio Classification	VGGSound	Top 1 Accuracy	65.9	CAV-MAE (Audio-Visual)
Audio Classification	VGGSound	Top 1 Accuracy	59.5	CAV-MAE (Audio-Only)
Audio Tagging	AudioSet	mean average precision	0.512	CAV-MAE (Audio-Visual)
Audio Tagging	AudioSet	mean average precision	0.466	CAV-MAE (Audio-Only)
Classification	AudioSet	Test mAP	0.512	CAV-MAE (Audio-Visual)
Classification	AudioSet	Test mAP	0.466	CAV-MAE (Audio-Only)
Classification	AudioSet	Test mAP	0.262	CAV-MAE (Visual-Only)
Classification	VGGSound	Top 1 Accuracy	65.9	CAV-MAE (Audio-Visual)
Classification	VGGSound	Top 1 Accuracy	59.5	CAV-MAE (Audio-Only)
Classification	VGG-Sound	Top-1 Accuracy	65.9	CAV-MAE (Audio-Visual)
Classification	AudioSet	Average mAP	0.512	CAV-MAE
Multi-modal Classification	VGG-Sound	Top-1 Accuracy	65.9	CAV-MAE (Audio-Visual)
Multi-modal Classification	AudioSet	Average mAP	0.512	CAV-MAE
10-shot image generation	ADE20K	mAP	27.2	CAVMAE
10-shot image generation	ADE20K	mIoU	19.9	CAVMAE
10-shot image generation	ADE20K	mAP	26	CAVMAE
10-shot image generation	ADE20K	mIoU	17	CAVMAE

Contrastive Audio-Visual Masked Autoencoder

Abstract

Results

Related Papers

Contrastive Audio-Visual Masked Autoencoder

Abstract

Results

Related Papers