Hybrid Transformers for Music Source Separation

Simon Rouard, Francisco Massa, Alexandre Défossez

2022-11-15Speech Enhancement Music Source Separation

Abstract

A natural question arising in Music Source Separation (MSS) is whether long range contextual information is useful, or whether local acoustic features are sufficient. In other fields, attention based Transformers have shown their ability to integrate information over long sequences. In this work, we introduce Hybrid Transformer Demucs (HT Demucs), an hybrid temporal/spectral bi-U-Net based on Hybrid Demucs, where the innermost layers are replaced by a cross-domain Transformer Encoder, using self-attention within one domain, and cross-attention across domains. While it performs poorly when trained only on MUSDB, we show that it outperforms Hybrid Demucs (trained on the same data) by 0.45 dB of SDR when using 800 extra training songs. Using sparse attention kernels to extend its receptive field, and per source fine-tuning, we achieve state-of-the-art results on MUSDB with extra training data, with 9.20 dB of SDR.

Results

Task	Dataset	Metric	Value	Model
Music Source Separation	MUSDB18	SDR (avg)	9.2	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (bass)	10.47	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (drums)	10.83	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (other)	6.41	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (vocals)	9.37	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (avg)	9	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18	SDR (bass)	9.78	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18	SDR (drums)	10.08	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18	SDR (other)	6.42	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18	SDR (vocals)	9.2	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (avg)	9.2	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (bass)	10.47	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (drums)	10.83	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (others)	6.41	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (vocals)	9.37	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (avg)	9	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (bass)	10.39	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (drums)	10.08	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (others)	6.32	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (vocals)	9.2	Hybrid Transformer Demucs (f.t.)
Speech Enhancement	EARS-WHAM	DNSMOS	3.66	Demucs v4
Speech Enhancement	EARS-WHAM	ESTOI	0.71	Demucs v4
Speech Enhancement	EARS-WHAM	PESQ-WB	2.37	Demucs v4
Speech Enhancement	EARS-WHAM	POLQA	2.97	Demucs v4
Speech Enhancement	EARS-WHAM	SI-SDR	16.92	Demucs v4
Speech Enhancement	EARS-WHAM	SIGMOS	2.87	Demucs v4
2D Classification	MUSDB18	SDR (avg)	9.2	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (bass)	10.47	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (drums)	10.83	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (other)	6.41	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (vocals)	9.37	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (avg)	9	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18	SDR (bass)	9.78	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18	SDR (drums)	10.08	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18	SDR (other)	6.42	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18	SDR (vocals)	9.2	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (avg)	9.2	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (bass)	10.47	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (drums)	10.83	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (others)	6.41	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (vocals)	9.37	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (avg)	9	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (bass)	10.39	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (drums)	10.08	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (others)	6.32	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (vocals)	9.2	Hybrid Transformer Demucs (f.t.)

Abstract

Results

Task	Dataset	Metric	Value	Model
Music Source Separation	MUSDB18	SDR (avg)	9.2	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (bass)	10.47	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (drums)	10.83	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (other)	6.41	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (vocals)	9.37	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18	SDR (avg)	9	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18	SDR (bass)	9.78	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18	SDR (drums)	10.08	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18	SDR (other)	6.42	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18	SDR (vocals)	9.2	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (avg)	9.2	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (bass)	10.47	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (drums)	10.83	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (others)	6.41	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (vocals)	9.37	Sparse HT Demucs (fine tuned)
Music Source Separation	MUSDB18-HQ	SDR (avg)	9	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (bass)	10.39	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (drums)	10.08	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (others)	6.32	Hybrid Transformer Demucs (f.t.)
Music Source Separation	MUSDB18-HQ	SDR (vocals)	9.2	Hybrid Transformer Demucs (f.t.)
Speech Enhancement	EARS-WHAM	DNSMOS	3.66	Demucs v4
Speech Enhancement	EARS-WHAM	ESTOI	0.71	Demucs v4
Speech Enhancement	EARS-WHAM	PESQ-WB	2.37	Demucs v4
Speech Enhancement	EARS-WHAM	POLQA	2.97	Demucs v4
Speech Enhancement	EARS-WHAM	SI-SDR	16.92	Demucs v4
Speech Enhancement	EARS-WHAM	SIGMOS	2.87	Demucs v4
2D Classification	MUSDB18	SDR (avg)	9.2	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (bass)	10.47	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (drums)	10.83	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (other)	6.41	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (vocals)	9.37	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18	SDR (avg)	9	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18	SDR (bass)	9.78	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18	SDR (drums)	10.08	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18	SDR (other)	6.42	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18	SDR (vocals)	9.2	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (avg)	9.2	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (bass)	10.47	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (drums)	10.83	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (others)	6.41	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (vocals)	9.37	Sparse HT Demucs (fine tuned)
2D Classification	MUSDB18-HQ	SDR (avg)	9	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (bass)	10.39	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (drums)	10.08	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (others)	6.32	Hybrid Transformer Demucs (f.t.)
2D Classification	MUSDB18-HQ	SDR (vocals)	9.2	Hybrid Transformer Demucs (f.t.)

Hybrid Transformers for Music Source Separation

Abstract

Results

Related Papers

Hybrid Transformers for Music Source Separation

Abstract

Results

Related Papers