MOE-conformer 流式多语种语音识别

MOE(Mixture of Experts):

MOE是一种通过专家混合来实现深度学习模型的方法,主要有以下特点:

  • MOE由多个专家(Excpert)组成,每个专家是一个独立的神经网络(可以是MLP、CNN、RNN等)
  • 输入数据会被路由分配到不同的专家进行处理,目的是确定最适合处理输入的专家模型
  • 各个专家独立处理得到的结果进行加权聚合后输入结果
  • 各个专家独立计算,容易实现数据并行
  • 通过组合不同专家的强项,总体能力优于单个专家

下面是Goole发布的MoE-Conformer关于流式语音识别的一篇文章介绍
https://arxiv.org/abs/2305.15663

MOE-Conformer:

Goole在2023年5月份提出了MOE-conformer流式多语种语音识别模型,MoE层通过将专家网络与Conformer模型结合,实现了对多语种语音的更准确识别。

这种方法提高了模型的容量和泛化能力,使其能够更好地适应不同语种的语音输入。实验相对于基准模型在12种语言实现了平均11.9%的相对词错误率(WER)改进,另外shallow fusion方法在相对词错误率上有约3%的提升。

MOE-Conformer 结构:
简单来说就是在conformer基础上把其中的FNN替换成了Moe层,Moe层由一个路由网络(routing network)和多个专家组成
在这里插入图片描述

论文中使用RNN-T loss 训练Moe-Conformer,为了确保不同专家之间负载平衡,采用了GShard中相同的辅助损失,其中,mi是在i时刻所有帧中选择不同专家的平均次数,ci是经过top-2计算后得到的分数最高的2个专家,使用每个专家mi(ci/S)的平均作为(ci/S)**2 的近似值。

使用的训练数据语种及数量(M为百万)分别如下:
在这里插入图片描述

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值