目的
项目需要实现类似行业定制的智能音箱功能,所以对当前可用的开源工具进行了调研和搭建demo环境,结合自己的体会形成下面相对中立的观点,供大家参考。
现状
AI框架的市场份额
从这个数据来看:"根据2022年下半年IDC对中国深度学习开源框架市场的调研,前三名Meta PyTorch、百度飞桨PaddlePaddle、谷歌TensorFlow已经占据超过80%的市场份额,遥遥领先于其他国内外框架。 飞桨PaddlePaddle开源框架市场份额超越了谷歌TensorFlow。" 我的体会是tensorflow可以暂时放下了。
从飞浆官网
飞桨PaddlePaddle-源于产业实践的开源深度学习平台 的更新来看,有半年没更新了,说明百度最近的投入重点有所转移。加微信客服无人理睬,没有支持的项目不值得跟进了。
所以个人推荐Pytorch,抱Nvidia这个大腿更合适一些。
Speech ASR 开源方案介绍
研究了4大工具:Kaldi , whisper , PaddleSpeech, MMS。
Kaldi是一个开源的语音识别工具包,它提供了一系列用于构建自定义语音识别系统的工具和库。
Whisper 是openai开源的大模型语音识别模型。
PaddleSpeech 是百度Paddlepaddle框架下的语音识别的实现。PaddleSpeech项目集成了多种中文的语音识别模型的Paddlepaddle实现
本文探讨了当前AI框架市场,PyTorch、PaddlePaddle和TensorFlow的份额,推荐PyTorch作为首选。针对语音识别,分析了Kaldi、Whisper、PaddleSpeech和MMS,提出Whisper在Meta的MMS之后仍具潜力。对于中文数据集,介绍了AISHELL,并指出PaddleSpeech对中文支持较好。文章提到了免费GPU平台如AIStudio和Kaggle,最终推荐使用Pytorch、Kaggle的免费GPU资源及Whisper进行中文ASR模型的微调。
最低0.47元/天 解锁文章

1073

被折叠的 条评论
为什么被折叠?



