面向产品的新一代端到端唤醒框架 wekws 正式发布

WeNet 开源社区正式发布 wekws,面向产品的新一代端到端唤醒框架。该工作在西北工业大学航海学院张晓雷老师团队、西工大音频语音与语言处理研究组谢磊老师团队的支持下完成。wekws 具有如下产品优先端到端轻量级高准确率四大优点。

目前该工作已经投稿 ICASSP 2023。

  论文地址为:https://arxiv.org/pdf/2210.16743.pdf

为什么要做 wekws?

语音唤醒在日常生活领域已经有了非常广泛的应用,例如手机上的个人助手 Siri,智能音箱上的小爱同学、天猫精灵,智能汽车中的你好小迪(比亚迪)、理想同学(理想汽车)等等的场景。然而实际工业界在落地唤醒时,确有如下突出问题:

  1. 方法众多:有 HMM Filler,有 Deep KWS[1],有类端到端方法,训练损失函数上有 CE、有 CTC、有 RNN-T、也有 max-pooling 等。复杂的方法增加了大家调研、选择和学习的成本,并且部分方法训练和部署难度大。

  2. 部署的芯片和平台众多:唤醒部署的芯片和硬件平台非常的多样化,很多平台需要独立适配,工作量大、成本高,反过来又限制了唤醒进一步在更多的平台和芯片上落地。

  3. 业界缺乏一个好用的、统一的、针对语音唤醒任务的开源的框架:目前虽然部分语音工具中也支持唤醒算法,如 Kaldi、FairSeq,Honk 等,但大多数不是针对唤醒任务设计,并且庞大复杂,上手难度大,更缺乏针对唤醒任务的部署支持。

所以,我们一直在思考,有没有可能像 wenet 一样,做一个产品优先的、专而精的、小而美的、端到端的语音唤醒开源框架?wekws 就是我们给出的答案。

wekws 有哪些特点?

根据上述的问题,wekws 做了针对性的设计,最终 wekws 的方案具有如下的特点:

产品优先

在 wekws 中 1)默认采用流式的模型结构设计,并且无需依赖未来信息,从而做到实时低延迟。2) 支持从研发模型直接导出生产环境可部署的 ONNX 等方案。3) 内置提供了多种平台和芯片的支持,例如 Android、OnnxRuntime、树莓派等,未来会做进一步的快速扩展,事实上,多种平台和芯片的支持也是非常适合用开源的形式去推动,适合众人拾材火焰高的开源集市开发模式去做。

下图是 wekws 中 Runtime 的设计和规划,绿色部分为已有功能,红色部分在有序推进中。

端到端

wekws 中采用基于 max-pooling loss 的纯端到端方案,既不需要对齐信息,也无需 VAD 给出唤醒词的边界点,从而真正做到了从头到尾的端到端一体化方案。在论文中,我们的实验表明,该方案不仅简化了训练系统设计,而且可以取得更好的模型性能。下图展示了论文中使用 VAD 监督信息(vad-max/vad-mean/weakly-constraint)和 不使用 VAD 监督信息(max-pooling)的实验结果。

 

轻量级

如前文所述,wekws 定位语音唤醒任务,力求专而精,小而美。

高准确率

我们同时在三个数据集(Mobvoi (SLR87)/Snips/Google Speech Command (GSC))对比了 wekws 和其他工具的性能,如下列表格所示,可以看到,wekws 提供了非常有竞争力的结果。

未来

在未来,wekws 一方面会支持更多的硬件、芯片、系统、语言等平台,另一方面,也会不断探索新的多快好省的算法和系统方案。

在这个万物互联的人工智能时代,我们坚信开源会有更大的作为!道阻且长,行则将至!驽马十驾,功在不舍!


参考资料

[1]Deep KWS: https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/42537.pdf

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值