Co-Separating Sounds of Visual Objects

Ruohan Gao, Kristen Grauman

2019-04-16ICCV 2019 10Denoising Audio Denoising Audio Source Separation

Abstract

Learning how objects sound from video is challenging, since they often heavily overlap in a single audio channel. Current methods for visually-guided audio source separation sidestep the issue by training with artificially mixed video clips, but this puts unwieldy restrictions on training data collection and may even prevent learning the properties of "true" mixed sounds. We introduce a co-separation training paradigm that permits learning object-level sounds from unlabeled multi-source videos. Our novel training objective requires that the deep neural network's separated audio for similar-looking objects be consistently identifiable, while simultaneously reproducing accurate video-level audio tracks for each source training pair. Our approach disentangles sounds in realistic test videos, even in cases where an object was not observed individually during training. We obtain state-of-the-art results on visually-guided audio source separation and audio denoising for the MUSIC, AudioSet, and AV-Bench datasets.

Results

Task	Dataset	Metric	Value	Model
Audio Denoising	AV-Bench - Violin Yanni	NSDR	8.53	Co-Separation
Audio Denoising	AV-Bench - Wooden Horse	NSDR	14.5	Co-Separation
Audio Denoising	AV-Bench - Guitar Solo	NSDR	11.9	Co-Separation
Audio Source Separation	AudioSet	SAR	13	Co-Separation
Audio Source Separation	AudioSet	SDR	4.26	Co-Separation
Audio Source Separation	AudioSet	SIR	7.07	Co-Separation
Audio Source Separation	MUSIC (multi-source)	SAR	11.3	Co-Separation
Audio Source Separation	MUSIC (multi-source)	SIR	13.8	Co-Separation

Related Papers

fastWDM3D: Fast and Accurate 3D Healthy Tissue Inpainting2025-07-17 Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models2025-07-17 Similarity-Guided Diffusion for Contrastive Sequential Recommendation2025-07-16 HUG-VAS: A Hierarchical NURBS-Based Generative Model for Aortic Geometry Synthesis and Controllable Editing2025-07-15 AirLLM: Diffusion Policy-based Adaptive LoRA for Remote Fine-Tuning of LLM over the Air2025-07-15 Towards Reliable Objective Evaluation Metrics for Generative Singing Voice Separation Models2025-07-15 A statistical physics framework for optimal learning2025-07-10 LangMamba: A Language-driven Mamba Framework for Low-dose CT Denoising with Vision-language Models2025-07-08