摘要
本文提出了一种极其轻质的通信连接换能器模型,在边缘设备上具有微小解码图。首先,首先使用基于空白标签跳跃的电话同步解码(PSD)算法来加速换能器解码过程。然后,为了减少高空白得分引入的删除误差,提出了一个空白标签脱模方法。为了降低参数和计算,在换能器编码器中使用深馈通顺序存储器网络(DFSMN)层,并采用基于CNN的无状态预测器。 SVD技术进一步压缩模型。基于WFST的解码图采用上下文 - 独立的(CI)音素,后断作为输入,并允许我们灵活地偏置用户特定信息。最好在使用SVD之后模型参数只有0.9M,与边缘设备上的更大的传统混合系统相比,我们的系统可以提供9.1% - 20.5%的改进。
引言
讲了语音的发展,E2E逐渐成为研究主流。在存储器和计算资源受到高度约束的边缘设备上,ASR系统必须非常紧凑。 (例如,用于车辆的嵌入式设备只能将低内存和计算预算属性属于ASR。)
为了满足上述要求,我们介绍了一个低效的ASR系统,适用于计算资源不足的ASR任务。我们所提出的系统由轻量级的电话语音传感器和微小的解码图组成。换能器将语音特征转换为电话序列。解码图,撰写词汇和语法FST,名为LG图的语法,地图手机后部到字序列。一方面,与传统的基于Senone的声学建模相比,基于电话的语音换能器简化了声学建模过程。另一方面,与LG图组合将容易地将语言模型或偏置用户特殊信息融合到解码图中
在我们提出的架构中,我们首先采用一种基于换能器的电话同步解码(PSD)算法,具有空白跳过策略,显着提高了解码速度,无识别性能下降。然后,为了减轻由过度均空白预测引起的删除误差,我们在