有监督的语音分离分为以下五步:
- 时频分解:利用信号处理方法(短时傅里叶变换或者听觉滤波器组)把输入的时域信号分解为二维的时频信号表示
- 特征提取:提取帧级别或者时频单元级别的声学特征
- 分离目标:常用的语音分离目标主要分为时频掩蔽的目标、目标语音幅度谱估计的目标和隐式时频掩蔽目标
- 模型训练:, 利用大量的输入输出训练对通过机器学 习算法学习一个从带噪特征到分离目标的映射函数,
- 波形合成:利用估计的分离目标以及混合信号, 通过逆变换,(逆傅里叶变换或者逆 Gammatone 滤波) 获得目标语音的波形信号.