Audiovisual Masked Autoencoders

Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab

2022-12-09ICCV 2023 1Representation Learning Audio Classification

Abstract

Can we leverage the audiovisual information already present in video to improve self-supervised representation learning? To answer this question, we study various pretraining architectures and objectives within the masked autoencoding framework, motivated by the success of similar methods in natural language and image understanding. We show that we can achieve significant improvements on audiovisual downstream classification tasks, surpassing the state-of-the-art on VGGSound and AudioSet. Furthermore, we can leverage our audiovisual pretraining scheme for multiple unimodal downstream tasks using a single audiovisual pretrained model. We additionally demonstrate the transferability of our representations, achieving state-of-the-art audiovisual results on Epic Kitchens without pretraining specifically for this dataset.

Results

Task	Dataset	Metric	Value	Model
Audio Classification	EPIC-KITCHENS-100	Top-1 Action	46	Audiovisual Masked Autoencoder (Audiovisual, Single)
Audio Classification	EPIC-KITCHENS-100	Top-1 Noun	56.4	Audiovisual Masked Autoencoder (Audiovisual, Single)
Audio Classification	EPIC-KITCHENS-100	Top-1 Verb	71.4	Audiovisual Masked Autoencoder (Audiovisual, Single)
Audio Classification	EPIC-KITCHENS-100	Top-1 Action	45.8	Audiovisual Masked Autoencoder (Video-only, Single)
Audio Classification	EPIC-KITCHENS-100	Top-1 Noun	55.9	Audiovisual Masked Autoencoder (Video-only, Single)
Audio Classification	EPIC-KITCHENS-100	Top-1 Verb	70.8	Audiovisual Masked Autoencoder (Video-only, Single)
Audio Classification	EPIC-KITCHENS-100	Top-1 Action	19.7	Audiovisual Masked Autoencoder (Audio-only, Single)
Audio Classification	EPIC-KITCHENS-100	Top-1 Noun	27.2	Audiovisual Masked Autoencoder (Audio-only, Single)
Audio Classification	EPIC-KITCHENS-100	Top-1 Verb	52.7	Audiovisual Masked Autoencoder (Audio-only, Single)
Audio Classification	AudioSet	Test mAP	0.518	Audiovisual Masked Autoencoder (Audiovisual, Single)
Audio Classification	AudioSet	Test mAP	0.466	Audiovisual Masked Autoencoder (Audio-only, Single)
Audio Classification	VGGSound	Top 1 Accuracy	65	Audiovisual Masked Autoencoder (Audiovisual, Single)
Audio Classification	VGGSound	Top 1 Accuracy	57.2	Audiovisual Masked Autoencoder (Audio-only, Single)
Classification	EPIC-KITCHENS-100	Top-1 Action	46	Audiovisual Masked Autoencoder (Audiovisual, Single)
Classification	EPIC-KITCHENS-100	Top-1 Noun	56.4	Audiovisual Masked Autoencoder (Audiovisual, Single)
Classification	EPIC-KITCHENS-100	Top-1 Verb	71.4	Audiovisual Masked Autoencoder (Audiovisual, Single)
Classification	EPIC-KITCHENS-100	Top-1 Action	45.8	Audiovisual Masked Autoencoder (Video-only, Single)
Classification	EPIC-KITCHENS-100	Top-1 Noun	55.9	Audiovisual Masked Autoencoder (Video-only, Single)
Classification	EPIC-KITCHENS-100	Top-1 Verb	70.8	Audiovisual Masked Autoencoder (Video-only, Single)
Classification	EPIC-KITCHENS-100	Top-1 Action	19.7	Audiovisual Masked Autoencoder (Audio-only, Single)
Classification	EPIC-KITCHENS-100	Top-1 Noun	27.2	Audiovisual Masked Autoencoder (Audio-only, Single)
Classification	EPIC-KITCHENS-100	Top-1 Verb	52.7	Audiovisual Masked Autoencoder (Audio-only, Single)
Classification	AudioSet	Test mAP	0.518	Audiovisual Masked Autoencoder (Audiovisual, Single)
Classification	AudioSet	Test mAP	0.466	Audiovisual Masked Autoencoder (Audio-only, Single)
Classification	VGGSound	Top 1 Accuracy	65	Audiovisual Masked Autoencoder (Audiovisual, Single)
Classification	VGGSound	Top 1 Accuracy	57.2	Audiovisual Masked Autoencoder (Audio-only, Single)

Audiovisual Masked Autoencoders

Abstract

Results

Related Papers

Audiovisual Masked Autoencoders

Abstract

Results

Related Papers