Robust One-step Speech Enhancement via Consistency Distillation

Liang Xu, Longfei Felix Yan, W. Bastiaan Kleijn

2025-07-08Speech Enhancement

Abstract

Diffusion models have shown strong performance in speech enhancement, but their real-time applicability has been limited by multi-step iterative sampling. Consistency distillation has recently emerged as a promising alternative by distilling a one-step consistency model from a multi-step diffusion-based teacher model. However, distilled consistency models are inherently biased towards the sampling trajectory of the teacher model, making them less robust to noise and prone to inheriting inaccuracies from the teacher model. To address this limitation, we propose ROSE-CD: Robust One-step Speech Enhancement via Consistency Distillation, a novel approach for distilling a one-step consistency model. Specifically, we introduce a randomized learning trajectory to improve the model's robustness to noise. Furthermore, we jointly optimize the one-step model with two time-domain auxiliary losses, enabling it to recover from teacher-induced errors and surpass the teacher model in overall performance. This is the first pure one-step consistency distillation model for diffusion-based speech enhancement, achieving 54 times faster inference speed and superior performance compared to its 30-step teacher model. Experiments on the VoiceBank-DEMAND dataset demonstrate that the proposed model achieves state-of-the-art performance in terms of speech quality. Moreover, its generalization ability is validated on both an out-of-domain dataset and real-world noisy recordings.

Results

Task	Dataset	Metric	Value	Model
Speech Enhancement	VoiceBank + DEMAND	CBAK	3.37	ROSE-CD(PESQ)
Speech Enhancement	VoiceBank + DEMAND	COVL	4.3	ROSE-CD(PESQ)
Speech Enhancement	VoiceBank + DEMAND	CSIG	4.63	ROSE-CD(PESQ)
Speech Enhancement	VoiceBank + DEMAND	ESTOI	0.83	ROSE-CD(PESQ)
Speech Enhancement	VoiceBank + DEMAND	PESQ (wb)	3.99	ROSE-CD(PESQ)
Speech Enhancement	VoiceBank + DEMAND	Para. (M)	65	ROSE-CD(PESQ)
Speech Enhancement	VoiceBank + DEMAND	SI-SDR	0.4	ROSE-CD(PESQ)
Speech Enhancement	VoiceBank + DEMAND	SSNR	0.927	ROSE-CD(PESQ)
Speech Enhancement	VoiceBank + DEMAND	STOI	92.6	ROSE-CD(PESQ)
Speech Enhancement	VoiceBank + DEMAND	CBAK	3.33	ROSE-CD
Speech Enhancement	VoiceBank + DEMAND	COVL	4.04	ROSE-CD
Speech Enhancement	VoiceBank + DEMAND	CSIG	4.523	ROSE-CD
Speech Enhancement	VoiceBank + DEMAND	ESTOI	0.87	ROSE-CD
Speech Enhancement	VoiceBank + DEMAND	PESQ (wb)	3.49	ROSE-CD
Speech Enhancement	VoiceBank + DEMAND	Para. (M)	65	ROSE-CD
Speech Enhancement	VoiceBank + DEMAND	SI-SDR	17.8	ROSE-CD
Speech Enhancement	VoiceBank + DEMAND	SSNR	3.34	ROSE-CD
Speech Enhancement	VoiceBank + DEMAND	STOI	94.73	ROSE-CD
Speech Enhancement	VoiceBank+DEMAND	DNSMOS	3.48	ROSE-CD
Speech Enhancement	VoiceBank+DEMAND	DNSMOS BAK	4.34	ROSE-CD
Speech Enhancement	VoiceBank+DEMAND	DNSMOS OVRL	3.7	ROSE-CD
Speech Enhancement	VoiceBank+DEMAND	DNSMOS SIG	4.02	ROSE-CD
Speech Enhancement	VoiceBank+DEMAND	ESTOI	0.87	ROSE-CD
Speech Enhancement	VoiceBank+DEMAND	PESQ	3.49	ROSE-CD
Speech Enhancement	VoiceBank+DEMAND	SI-SDR	17.8	ROSE-CD
Speech Enhancement	VoiceBank+DEMAND	DNSMOS	3.01	rose_cd(PESQ )
Speech Enhancement	VoiceBank+DEMAND	DNSMOS BAK	4.29	rose_cd(PESQ )
Speech Enhancement	VoiceBank+DEMAND	DNSMOS OVRL	3.28	rose_cd(PESQ )
Speech Enhancement	VoiceBank+DEMAND	DNSMOS SIG	3.52	rose_cd(PESQ )
Speech Enhancement	VoiceBank+DEMAND	ESTOI	0.83	rose_cd(PESQ )
Speech Enhancement	VoiceBank+DEMAND	PESQ	3.99	rose_cd(PESQ )
Speech Enhancement	VoiceBank+DEMAND	PESQ (wb)	3.99	rose_cd(PESQ )
Speech Enhancement	VoiceBank+DEMAND	SI-SDR	0.4	rose_cd(PESQ )

Robust One-step Speech Enhancement via Consistency Distillation

Abstract

Results

Related Papers

Robust One-step Speech Enhancement via Consistency Distillation

Abstract

Results

Related Papers