UAVM: Towards Unifying Audio and Visual Models

Yuan Gong, Alexander H. Liu, Andrew Rouditchenko, James Glass

2022-07-29Multi-modal Classification Audio Classification audio-visual learning

Abstract

Conventional audio-visual models have independent audio and video branches. In this work, we unify the audio and visual branches by designing a Unified Audio-Visual Model (UAVM). The UAVM achieves a new state-of-the-art audio-visual event classification accuracy of 65.8% on VGGSound. More interestingly, we also find a few intriguing properties of UAVM that the modality-independent counterparts do not have.

Results

Task	Dataset	Metric	Value	Model
Audio Classification	AudioSet	Test mAP	0.504	UAVM (Audio + Video)
Audio Classification	VGGSound	Top 1 Accuracy	65.8	UAVM (Audio + Video)
Audio Classification	VGGSound	Top 1 Accuracy	56.5	UAVM (Audio Only)
Audio Classification	VGGSound	Top 1 Accuracy	49.9	UAVM (Video Only)
Classification	AudioSet	Test mAP	0.504	UAVM (Audio + Video)
Classification	VGGSound	Top 1 Accuracy	65.8	UAVM (Audio + Video)
Classification	VGGSound	Top 1 Accuracy	56.5	UAVM (Audio Only)
Classification	VGGSound	Top 1 Accuracy	49.9	UAVM (Video Only)
Classification	VGG-Sound	Top-1 Accuracy	65.8	UAVM
Classification	AudioSet	Average mAP	0.504	UAVM
Multi-modal Classification	VGG-Sound	Top-1 Accuracy	65.8	UAVM
Multi-modal Classification	AudioSet	Average mAP	0.504	UAVM

Related Papers

Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine2025-07-17 MUPAX: Multidimensional Problem Agnostic eXplainable AI2025-07-17 Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons2025-06-24 Fully Few-shot Class-incremental Audio Classification Using Multi-level Embedding Extractor and Ridge Regression Classifier2025-06-23 Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework2025-06-09 Adaptive Differential Denoising for Respiratory Sounds Classification2025-06-03 Spectrotemporal Modulation: Efficient and Interpretable Feature Representation for Classifying Speech, Music, and Environmental Sounds2025-05-29 A Survey on Training-free Open-Vocabulary Semantic Segmentation2025-05-28