目的
项目需要实现类似行业定制的智能音箱功能,所以对当前可用的开源工具进行了调研和搭建demo环境,结合自己的体会形成下面相对中立的观点,供大家参考。
现状
AI框架的市场份额
从这个数据来看:"根据2022年下半年IDC对中国深度学习开源框架市场的调研,前三名Meta PyTorch、百度飞桨PaddlePaddle、谷歌TensorFlow已经占据超过80%的市场份额,遥遥领先于其他国内外框架。 飞桨PaddlePaddle开源框架市场份额超越了谷歌TensorFlow。" 我的体会是tensorflow可以暂时放下了。
从飞浆官网
飞桨PaddlePaddle-源于产业实践的开源深度学习平台 的更新来看,有半年没更新了,说明百度最近的投入重点有所转移。加微信客服无人理睬,没有支持的项目不值得跟进了。
所以个人推荐Pytorch,抱Nvidia这个大腿更合适一些。
Speech ASR 开源方案介绍
研究了4大工具:Kaldi , whisper , PaddleSpeech, MMS。
Kaldi是一个开源的语音识别工具包,它提供了一系列用于构建自定义语音识别系统的工具和库。
Whisper 是openai开源的大模型语音识别模型。
PaddleSpeech 是百度Paddlepaddle框架下的语音识别的实现。PaddleSpeech项目集成了多种中文的语音识别模型的Paddlepaddle实现