面向产品的新一代端到端唤醒框架 wekws 正式发布

最新推荐文章于 2024-08-16 08:32:32 发布

语音之家

最新推荐文章于 2024-08-16 08:32:32 发布

阅读量1.4k

点赞数

分类专栏：智能语音文章标签：语音识别人工智能端到端

本文链接：https://blog.csdn.net/weixin_48827824/article/details/127731337

版权

智能语音专栏收录该内容

193 篇文章 59 订阅

订阅专栏

WeNet 开源社区正式发布 wekws，面向产品的新一代端到端唤醒框架。该工作在西北工业大学航海学院张晓雷老师团队、西工大音频语音与语言处理研究组谢磊老师团队的支持下完成。wekws 具有如下产品优先, 端到端, 轻量级, 高准确率四大优点。

目前该工作已经投稿 ICASSP 2023。

论文地址为：https://arxiv.org/pdf/2210.16743.pdf

为什么要做 wekws？

语音唤醒在日常生活领域已经有了非常广泛的应用，例如手机上的个人助手 Siri，智能音箱上的小爱同学、天猫精灵，智能汽车中的你好小迪（比亚迪）、理想同学（理想汽车）等等的场景。然而实际工业界在落地唤醒时，确有如下突出问题：

方法众多：有 HMM Filler，有 Deep KWS[1]，有类端到端方法，训练损失函数上有 CE、有 CTC、有 RNN-T、也有 max-pooling 等。复杂的方法增加了大家调研、选择和学习的成本，并且部分方法训练和部署难度大。
部署的芯片和平台众多：唤醒部署的芯片和硬件平台非常的多样化，很多平台需要独立适配，工作量大、成本高，反过来又限制了唤醒进一步在更多的平台和芯片上落地。
业界缺乏一个好用的、统一的、针对语音唤醒任务的开源的框架：目前虽然部分语音工具中也支持唤醒算法，如 Kaldi、FairSeq，Honk 等，但大多数不是针对唤醒任务设计，并且庞大复杂，上手难度大，更缺乏针对唤醒任务的部署支持。

所以，我们一直在思考，有没有可能像 wenet 一样，做一个产品优先的、专而精的、小而美的、端到端的语音唤醒开源框架？wekws 就是我们给出的答案。

wekws 有哪些特点？

根据上述的问题，wekws 做了针对性的设计，最终 wekws 的方案具有如下的特点：

产品优先

在 wekws 中 1)默认采用流式的模型结构设计，并且无需依赖未来信息，从而做到实时低延迟。2) 支持从研发模型直接导出生产环境可部署的 ONNX 等方案。3) 内置提供了多种平台和芯片的支持，例如 Android、OnnxRuntime、树莓派等，未来会做进一步的快速扩展，事实上，多种平台和芯片的支持也是非常适合用开源的形式去推动，适合众人拾材火焰高的开源集市开发模式去做。

下图是 wekws 中 Runtime 的设计和规划，绿色部分为已有功能，红色部分在有序推进中。

端到端

wekws 中采用基于 max-pooling loss 的纯端到端方案，既不需要对齐信息，也无需 VAD 给出唤醒词的边界点，从而真正做到了从头到尾的端到端一体化方案。在论文中，我们的实验表明，该方案不仅简化了训练系统设计，而且可以取得更好的模型性能。下图展示了论文中使用 VAD 监督信息(vad-max/vad-mean/weakly-constraint)和不使用 VAD 监督信息(max-pooling)的实验结果。