Speech ASR 语音识别方案现状调查

目的

        项目需要实现类似行业定制的智能音箱功能,所以对当前可用的开源工具进行了调研和搭建demo环境,结合自己的体会形成下面相对中立的观点,供大家参考。

现状

  AI框架的市场份额

        从这个数据来看:"根据2022年下半年IDC对中国深度学习开源框架市场的调研,前三名Meta PyTorch、百度飞桨PaddlePaddle、谷歌TensorFlow已经占据超过80%的市场份额,遥遥领先于其他国内外框架。 飞桨PaddlePaddle开源框架市场份额超越了谷歌TensorFlow。"  我的体会是tensorflow可以暂时放下了。

        从飞浆官网 

飞桨PaddlePaddle-源于产业实践的开源深度学习平台  的更新来看,有半年没更新了,说明百度最近的投入重点有所转移。加微信客服无人理睬,没有支持的项目不值得跟进了。

        所以个人推荐Pytorch,抱Nvidia这个大腿更合适一些。

 Speech ASR 开源方案介绍

    研究了4大工具:Kaldi , whisper , PaddleSpeech, MMS。

    Kaldi是一个开源的语音识别工具包,它提供了一系列用于构建自定义语音识别系统的工具和库。

    Whisper 是openai开源的大模型语音识别模型。

    PaddleSpeech 是百度Paddlepaddle框架下的语音识别的实现。PaddleSpeech项目集成了多种中文的语音识别模型的Paddlepaddle实现࿰

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值