Leaderboard 项目新增基于 WenetSpeech 数据集的 WeNet 预训练模型,识别准确率如下:
具体数字如下:
该模型可与之前发布的开源测试集配合使用,进行本地复现和验证,模型的下载命令为:
ops/pull model wenet_wenetspeech
测试集的下载命令见上几篇历史文章。
简评:
-
从数字可以看出,基于 WenetSpeech 数据集的 WeNet 模型在性能上已经超过了百度的付费商业引擎,逼近行业头部商业引擎的 [SOTA] 均值。
-
从数据到框架的全栈开源系统,在性能上开始超越商业付费系统的案例,在很多技术领域的发展历史中都可以找到,对本行业的意义自不必多说。
-
仔细对比上述评测数字差异,公众号的读者朋友们可以切实感受一下数据对于模型性能的重要性。现阶段AI行业的实际落地,刻意回避数据,只强调技术优越性的人,短视与欺骗必占其一。People lie, numbers don't
-
祝贺 WeNet 团队。