语音论文阅读TINY TRANSDUCER: A HIGHLY-EFFICIENT SPEECH RECOGNITION MODEL ON EDGE DEVICES

尚歌

于 2021-04-19 17:24:15 发布

阅读量485

点赞数

分类专栏：语音识别文章标签：算法语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wudibaba21/article/details/115866931

版权

摘要

本文提出了一种极其轻质的通信连接换能器模型，在边缘设备上具有微小解码图。首先，首先使用基于空白标签跳跃的电话同步解码（PSD）算法来加速换能器解码过程。然后，为了减少高空白得分引入的删除误差，提出了一个空白标签脱模方法。为了降低参数和计算，在换能器编码器中使用深馈通顺序存储器网络（DFSMN）层，并采用基于CNN的无状态预测器。 SVD技术进一步压缩模型。基于WFST的解码图采用上下文 - 独立的（CI）音素，后断作为输入，并允许我们灵活地偏置用户特定信息。最好在使用SVD之后模型参数只有0.9M,与边缘设备上的更大的传统混合系统相比，我们的系统可以提供9.1％ - 20.5％的改进。

引言

讲了语音的发展，E2E逐渐成为研究主流。在存储器和计算资源受到高度约束的边缘设备上，ASR系统必须非常紧凑。（例如，用于车辆的嵌入式设备只能将低内存和计算预算属性属于ASR。）

为了满足上述要求，我们介绍了一个低效的ASR系统，适用于计算资源不足的ASR任务。我们所提出的系统由轻量级的电话语音传感器和微小的解码图组成。换能器将语音特征转换为电话序列。解码图，撰写词汇和语法FST，名为LG图的语法，地图手机后部到字序列。一方面，与传统的基于Senone的声学建模相比，基于电话的语音换能器简化了声学建模过程。另一方面，与LG图组合将容易地将语言模型或偏置用户特殊信息融合到解码图中

在我们提出的架构中，我们首先采用一种基于换能器的电话同步解码（PSD）算法，具有空白跳过策略，显着提高了解码速度，无识别性能下降。然后，为了减轻由过度均空白预测引起的删除误差，我们在

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。