语音论文阅读TINY TRANSDUCER: A HIGHLY-EFFICIENT SPEECH RECOGNITION MODEL ON EDGE DEVICES

摘要

本文提出了一种极其轻质的通信连接换能器模型,在边缘设备上具有微小解码图。首先,首先使用基于空白标签跳跃的电话同步解码(PSD)算法来加速换能器解码过程。然后,为了减少高空白得分引入的删除误差,提出了一个空白标签脱模方法。为了降低参数和计算,在换能器编码器中使用深馈通顺序存储器网络(DFSMN)层,并采用基于CNN的无状态预测器。 SVD技术进一步压缩模型。基于WFST的解码图采用上下文 - 独立的(CI)音素,后断作为输入,并允许我们灵活地偏置用户特定信息。最好在使用SVD之后模型参数只有0.9M,与边缘设备上的更大的传统混合系统相比,我们的系统可以提供9.1% - 20.5%的改进。

引言

讲了语音的发展,E2E逐渐成为研究主流。在存储器和计算资源受到高度约束的边缘设备上,ASR系统必须非常紧凑。 (例如,用于车辆的嵌入式设备只能将低内存和计算预算属性属于ASR。)

为了满足上述要求,我们介绍了一个低效的ASR系统,适用于计算资源不足的ASR任务。我们所提出的系统由轻量级的电话语音传感器和微小的解码图组成。换能器将语音特征转换为电话序列。解码图,撰写词汇和语法FST,名为LG图的语法,地图手机后部到字序列。一方面,与传统的基于Senone的声学建模相比,基于电话的语音换能器简化了声学建模过程。另一方面,与LG图组合将容易地将语言模型或偏置用户特殊信息融合到解码图中

在我们提出的架构中,我们首先采用一种基于换能器的电话同步解码(PSD)算法,具有空白跳过策略,显着提高了解码速度,无识别性能下降。然后,为了减轻由过度均空白预测引起的删除误差,我们在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值