MOE-conformer 流式多语种语音识别

最新推荐文章于 2024-07-19 22:46:50 发布

深度学习-视听觉

最新推荐文章于 2024-07-19 22:46:50 发布

阅读量260

点赞数 5

文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45092744/article/details/139564395

版权

MOE(Mixture of Experts)：

MOE是一种通过专家混合来实现深度学习模型的方法，主要有以下特点：

MOE由多个专家(Excpert)组成，每个专家是一个独立的神经网络(可以是MLP、CNN、RNN等)
输入数据会被路由分配到不同的专家进行处理，目的是确定最适合处理输入的专家模型
各个专家独立处理得到的结果进行加权聚合后输入结果
各个专家独立计算，容易实现数据并行
通过组合不同专家的强项，总体能力优于单个专家

下面是Goole发布的MoE-Conformer关于流式语音识别的一篇文章介绍
https://arxiv.org/abs/2305.15663

MOE-Conformer:

Goole在2023年5月份提出了MOE-conformer流式多语种语音识别模型，MoE层通过将专家网络与Conformer模型结合，实现了对多语种语音的更准确识别。

这种方法提高了模型的容量和泛化能力，使其能够更好地适应不同语种的语音输入。实验相对于基准模型在12种语言实现了平均11.9%的相对词错误率（WER）改进，另外shallow fusion方法在相对词错误率上有约3%的提升。

MOE-Conformer 结构：
简单来说就是在conformer基础上把其中的FNN替换成了Moe层,Moe层由一个路由网络(routing network)和多个专家组成
在这里插入图片描述

论文中使用RNN-T loss 训练Moe-Conformer，为了确保不同专家之间负载平衡，采用了GShard中相同的辅助损失，其中，mi是在i时刻所有帧中选择不同专家的平均次数，ci是经过top-2计算后得到的分数最高的2个专家，使用每个专家mi(ci/S)的平均作为(ci/S)**2 的近似值。

使用的训练数据语种及数量(M为百万)分别如下：
在这里插入图片描述

深度学习-视听觉

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MOE-conformer 流式多语种语音识别

下面是Goole发布的MoE-Conformer关于流式语音识别的一篇文章介绍。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。