Stabilizing Label Assignment for Speech Separation by Self-supervised Pre-training

Sung-Feng Huang, Shun-Po Chuang, Da-Rong Liu, Yi-Chen Chen, Gene-Ping Yang, Hung-Yi Lee

2020-10-29Speech Separation Speech Enhancement Speaker Separation

Abstract

Speech separation has been well developed, with the very successful permutation invariant training (PIT) approach, although the frequent label assignment switching happening during PIT training remains to be a problem when better convergence speed and achievable performance are desired. In this paper, we propose to perform self-supervised pre-training to stabilize the label assignment in training the speech separation model. Experiments over several types of self-supervised approaches, several typical speech separation models and two different datasets showed that very good improvements are achievable if a proper self-supervised approach is chosen.

Results

Task	Dataset	Metric	Value	Model
Speech Separation	WSJ0-2mix	SDRi	21.5	DPTNet (Libri1Mix speech enhancement pre-trained)
Speech Separation	WSJ0-2mix	SI-SDRi	21.3	DPTNet (Libri1Mix speech enhancement pre-trained)
Speech Separation	Libri2Mix	SDRi	14.6	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)
Speech Separation	Libri2Mix	SI-SDRi	14.1	Conv-Tasnet (Libri1Mix speech enhancement pre-trained)
Speech Separation	Libri2Mix	SDRi	14.1	Conv-Tasnet (Libri1Mix speech enhancement multi-task)
Speech Separation	Libri2Mix	SI-SDRi	13.7	Conv-Tasnet (Libri1Mix speech enhancement multi-task)
Speech Separation	Libri2Mix	SDRi	13.6	Conv-Tasnet
Speech Separation	Libri2Mix	SI-SDRi	13.2	Conv-Tasnet

Related Papers

Autoregressive Speech Enhancement via Acoustic Tokens2025-07-17 P.808 Multilingual Speech Enhancement Testing: Approach and Results of URGENT 2025 Challenge2025-07-15 Dynamic Slimmable Networks for Efficient Speech Separation2025-07-08 Robust One-step Speech Enhancement via Consistency Distillation2025-07-08 Speech Quality Assessment Model Based on Mixture of Experts: System-Level Performance Enhancement and Utterance-Level Challenge Analysis2025-07-08 MambAttention: Mamba with Multi-Head Attention for Generalizable Single-Channel Speech Enhancement2025-07-01 Frequency-Weighted Training Losses for Phoneme-Level DNN-based Speech Enhancement2025-06-23 EDNet: A Distortion-Agnostic Speech Enhancement Framework with Gating Mamba Mechanism and Phase Shift-Invariant Training2025-06-19