[Interspeech 2018 ]CRN
Motivation
现实生活中许多语音增强的应用都需要实时处理,最好没有延迟或者低延迟,而目前的LSTM模型适用于未训练的说话人,而GRN在每个时间帧需要大量的未来信息来做mask估计或者谱映射,因此不能被使用在实时语音增强上。受最近CRN工作上的启发,作者提出了一个新的关于噪声和说话人无关的实时语音增强系统CRN架构,CRN结合了CED和LSTM。所提出的系统比LSTM有更好的客观语音可懂度和质量,而且,CRN训练参数更少。
现实生活中许多语音增强的应用都需要实时处理,最好没有延迟或者低延迟,而目前的LSTM模型适用于未训练的说话人,而GRN在每个时间帧需要大量的未来信息来做mask估计或者谱映射,因此不能被使用在实时语音增强上。受最近CRN工作上的启发,作者提出了一个新的关于噪声和说话人无关的实时语音增强系统CRN架构,CRN结合了CED和LSTM。所提出的系统比LSTM有更好的客观语音可懂度和质量,而且,CRN训练参数更少。